論文の概要: Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test
- arxiv url: http://arxiv.org/abs/2511.19997v1
- Date: Tue, 25 Nov 2025 07:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.32315
- Title: Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test
- Title(参考訳): 変圧器の方向性最適化非対称性:合成応力試験
- Authors: Mihir Sahasrabudhe,
- Abstract要約: 変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
LLMの時間的非対称性に関する最近の研究は、実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are theoretically reversal-invariant: their function class does not prefer left-to-right over right-to-left mappings. Yet empirical studies on natural language repeatedly report a "reversal curse," and recent work on temporal asymmetry in LLMs suggests that real-world corpora carry their own arrow of time. This leaves an unresolved question: do directional failures stem from linguistic statistics, or from the architecture itself? We cut through this ambiguity with a fully synthetic, entropy-controlled benchmark designed as a clean-room stress test for directional learning. Using random string mappings with tunable branching factor K, we construct forward tasks with zero conditional entropy and inverse tasks with analytically determined entropy floors. Excess loss above these floors reveals that even scratch-trained GPT-2 models exhibit a strong, reproducible directional optimization gap (e.g., 1.16 nats at K=5), far larger than that of an MLP trained on the same data. Pre-trained initializations shift optimization behavior but do not eliminate this gap, while LoRA encounters a sharp capacity wall on high-entropy inverse mappings. Together, these results isolate a minimal, semantics-free signature of directional friction intrinsic to causal Transformer training-one that persists even when linguistic priors, token frequencies, and corpus-level temporal asymmetries are removed. Our benchmark provides a controlled instrument for dissecting directional biases in modern sequence models and motivates deeper mechanistic study of why inversion remains fundamentally harder for Transformers.
- Abstract(参考訳): 変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
しかし、自然言語に関する実証的研究は繰り返し「逆の呪い」を報告し、LLMにおける時間的非対称性に関する最近の研究は、現実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
方向性学習のためのクリーンルームストレステストとして設計された完全合成エントロピー制御ベンチマークで、この曖昧さを克服した。
可変分岐係数Kのランダムな文字列写像を用いて、解析的に決定されたエントロピーフロアの条件付きエントロピーゼロの前方タスクと逆タスクを構築する。
これらのフロア上の余分な損失は、スクラッチトレーニングされたGPT-2モデルでさえ、同じデータでトレーニングされたMLPよりもはるかに大きく、再現可能な方向最適化のギャップ(例えば、K=5で1.16ナット)が強いことを示している。
事前訓練された初期化は最適化の挙動をシフトさせるが、このギャップを排除しない。
これらの結果は,言語的先行性,トークン頻度,コーパスレベルの時間的非対称性を除去しても持続する因果的トランスフォーマー訓練に固有の,最小限の無意味な指向性摩擦のシグネチャを分離する。
我々のベンチマークは、現代のシーケンスモデルにおいて方向バイアスを分離するための制御された手段を提供し、なぜ変換器にとって逆転が根本的に難しいのかについてのより深い力学研究を動機付けている。
関連論文リスト
- Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。