論文の概要: Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test
- arxiv url: http://arxiv.org/abs/2511.19997v1
- Date: Tue, 25 Nov 2025 07:03:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.32315
- Title: Directional Optimization Asymmetry in Transformers: A Synthetic Stress Test
- Title(参考訳): 変圧器の方向性最適化非対称性:合成応力試験
- Authors: Mihir Sahasrabudhe,
- Abstract要約: 変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
LLMの時間的非対称性に関する最近の研究は、実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
- 参考スコア(独自算出の注目度): 0.15229257192293197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers are theoretically reversal-invariant: their function class does not prefer left-to-right over right-to-left mappings. Yet empirical studies on natural language repeatedly report a "reversal curse," and recent work on temporal asymmetry in LLMs suggests that real-world corpora carry their own arrow of time. This leaves an unresolved question: do directional failures stem from linguistic statistics, or from the architecture itself? We cut through this ambiguity with a fully synthetic, entropy-controlled benchmark designed as a clean-room stress test for directional learning. Using random string mappings with tunable branching factor K, we construct forward tasks with zero conditional entropy and inverse tasks with analytically determined entropy floors. Excess loss above these floors reveals that even scratch-trained GPT-2 models exhibit a strong, reproducible directional optimization gap (e.g., 1.16 nats at K=5), far larger than that of an MLP trained on the same data. Pre-trained initializations shift optimization behavior but do not eliminate this gap, while LoRA encounters a sharp capacity wall on high-entropy inverse mappings. Together, these results isolate a minimal, semantics-free signature of directional friction intrinsic to causal Transformer training-one that persists even when linguistic priors, token frequencies, and corpus-level temporal asymmetries are removed. Our benchmark provides a controlled instrument for dissecting directional biases in modern sequence models and motivates deeper mechanistic study of why inversion remains fundamentally harder for Transformers.
- Abstract(参考訳): 変換子は理論的には逆不変であり、その関数クラスは右から左への写像よりも左から右への写像を好まない。
しかし、自然言語に関する実証的研究は繰り返し「逆の呪い」を報告し、LLMにおける時間的非対称性に関する最近の研究は、現実世界のコーパスが独自の時間的矢印を持っていることを示唆している。
方向性の障害は、言語統計学によるものなのか、あるいはアーキテクチャ自体によるものなのか?
方向性学習のためのクリーンルームストレステストとして設計された完全合成エントロピー制御ベンチマークで、この曖昧さを克服した。
可変分岐係数Kのランダムな文字列写像を用いて、解析的に決定されたエントロピーフロアの条件付きエントロピーゼロの前方タスクと逆タスクを構築する。
これらのフロア上の余分な損失は、スクラッチトレーニングされたGPT-2モデルでさえ、同じデータでトレーニングされたMLPよりもはるかに大きく、再現可能な方向最適化のギャップ(例えば、K=5で1.16ナット)が強いことを示している。
事前訓練された初期化は最適化の挙動をシフトさせるが、このギャップを排除しない。
これらの結果は,言語的先行性,トークン頻度,コーパスレベルの時間的非対称性を除去しても持続する因果的トランスフォーマー訓練に固有の,最小限の無意味な指向性摩擦のシグネチャを分離する。
我々のベンチマークは、現代のシーケンスモデルにおいて方向バイアスを分離するための制御された手段を提供し、なぜ変換器にとって逆転が根本的に難しいのかについてのより深い力学研究を動機付けている。
関連論文リスト
- $\
abla$-Reasoner: LLM Reasoning via Test-Time Gradient Descent in Latent Space [71.23672814629448]
$nabla$-Reasonerは、トークンログに対する差別化可能な最適化をデコードループに統合する反復生成フレームワークである。
$nabla$-Reasonerは、挑戦的な数学的推論ベンチマークで20%以上の精度の向上を実現している。
論文 参考訳(メタデータ) (2026-03-05T08:42:54Z) - Memorization, Emergence, and Explaining Reversal Failures: A Controlled Study of Relational Semantics in LLMs [43.414287127130684]
本稿では,対称/逆三重項からテキストを生成する合成フレームワークを提案し,GPTスタイルの自己回帰モデルをスクラッチから訓練し,記憶,論理推論,文脈内一般化を評価する。
浅層(2-3層)モデルにおいても,関係性セマンティクスが十分な論理量制御によって出現し,その一般化が安定な中間層信号と一致していることが判明した。
論文 参考訳(メタデータ) (2026-01-06T11:20:38Z) - Block-Recurrent Dynamics in Vision Transformers [42.261020313952976]
我々は、トレーニングされたViTは、元の$L$ブロックの計算を、繰り返し適用された$k ll L$ブロックのみを使用して正確に書き直せるようにブロック再帰的な深さ構造を許容していると主張している。
DINOv2 ImageNet-1kの線形プローブ精度を同等の計算コストで2ブロックで回収するために、Raptorモデルを訓練する。
論文 参考訳(メタデータ) (2025-12-23T00:18:23Z) - Pay Attention Later: From Vector Space Diffusion to Linearithmic Spectral Phase-Locking [0.0]
スタンダードトランスフォーマーは「セマンティックアライメント税」に苦しむ
位相共鳴インテリジェントスペクトルモデル(PRISM)を導入する。
PRISMは複素領域(Cd)における共振周波数としてのセマンティックアイデンティティを符号化し、二次自己アテンションをリニアリトミック O(N log N) Gated Harmonic Convolutions に置き換える。
論文 参考訳(メタデータ) (2025-12-01T02:46:15Z) - Test time training enhances in-context learning of nonlinear functions [51.56484100374058]
テストタイムトレーニング(TTT)は、各予測に先立って指定されたパラメータを明示的に更新することで、モデル性能を向上させる。
本研究では,TTTとテキスト内学習(ICL)の組み合わせについて検討する。
論文 参考訳(メタデータ) (2025-09-30T03:56:44Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - Born a Transformer -- Always a Transformer? On the Effect of Pretraining on Architectural Abilities [58.742178800799614]
We study a family of $textitretrieval$ and $textitcopying$ tasks inspired by Liu et al。
我々は、事前訓練されたモデルがクエリトークンの左(アンチインダクション)よりも右(インダクション)へのトークンの検索が優れているような、$textitinduction-versus-anti-induction$ asymmetricを観察する。
力学解析により、この非対称性は、事前学習された変圧器内の誘導の強度と反誘導回路の強度の違いに関係していることが明らかになった。
論文 参考訳(メタデータ) (2025-05-27T21:36:50Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - On Mesa-Optimization in Autoregressively Trained Transformers: Emergence and Capability [34.43255978863601]
いくつかの説では、トランスフォーマーはオートレアトレーニング中にmesa-optimizerを学習する。
データモーメントに関する強い仮定は、学習されたメザ最適化器が実行可能な十分な必要条件であることを示す。
論文 参考訳(メタデータ) (2024-05-27T05:41:06Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Exposing Attention Glitches with Flip-Flop Language Modeling [55.0688535574859]
この研究は、大きな言語モデルにおける注意点の現象を特定し、分析する。
ニューラルネットワークモデルの外挿挙動を探索するために設計された,合成ベンチマークのファミリであるフリップフロップ言語モデリング(FFLM)を導入する。
その結果,Transformer FFLM は散発的推論誤差の長い尾に悩まされていることがわかった。
論文 参考訳(メタデータ) (2023-06-01T17:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。