論文の概要: Layer Specialization Underlying Compositional Reasoning in Transformers
- arxiv url: http://arxiv.org/abs/2510.17469v1
- Date: Mon, 20 Oct 2025 12:08:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.442411
- Title: Layer Specialization Underlying Compositional Reasoning in Transformers
- Title(参考訳): 変圧器の合成推論に基づく層別特殊化
- Authors: Jing Liu,
- Abstract要約: トランスフォーマーは、トレーニング中に観察されていないシーケンスに関する構成的推論を示す。
確率論的文脈自由文法であるランダム階層モデル(RHM)を用いて,この現象を考察する。
メカニカルには、一般化性能と相関するトレーニング中の層特殊化の進行する出現を同定する。
- 参考スコア(独自算出の注目度): 6.581088182267414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers exhibit compositional reasoning on sequences not observed during training, a capability often attributed to in-context learning (ICL) and skill composition. We investigate this phenomenon using the Random Hierarchy Model (RHM), a probabilistic context-free grammar that generates sequences through recursive rule application. Models are trained on subsets of sequences and evaluated across four generalization conditions: memorization, in-distribution generalization, out-of-distribution generalization with the same rules, and cross-layer transfer. Behaviorally, performance improves systematically with task complexity and the number of in-context examples, with out-of-distribution tasks requiring substantially more examples than in-distribution scenarios. Mechanistically, we identify a progressive emergence of layer specialization during training that correlates with generalization performance. Principal component analysis and attention pattern clustering reveal that transformers develop structured, hierarchically organized representations in specialized layers. These results demonstrate that transformers develop modular, interpretable mechanisms supporting compositional reasoning, linking internal algorithmic structure to observed behavioral capabilities.
- Abstract(参考訳): トランスフォーマーは、トレーニング中に観察されていないシーケンスに関する構成的推論を示すが、これはしばしばインコンテキストラーニング(ICL)とスキルコンポジションに起因する能力である。
本稿では,確率論的文脈自由文法であるRandom Hierarchy Model (RHM) を用いて,再帰的規則の適用によりシーケンスを生成する。
モデルはシーケンスのサブセットに基づいて訓練され、記憶化、分布内一般化、同じ規則による分布外一般化、層間移動の4つの一般化条件で評価される。
振る舞い的には、パフォーマンスはタスクの複雑さとコンテキスト内サンプルの数によって体系的に改善され、アウト・オブ・ディストリビューションタスクはイン・ディストリビューションシナリオよりもはるかに多くの例を必要とする。
メカニカルには、一般化性能と相関するトレーニング中の層特殊化の進行する出現を同定する。
主成分分析とアテンションパターンクラスタリングは、トランスフォーマーが特殊な層で構造的、階層的に組織化された表現を開発することを示す。
これらの結果から、トランスフォーマーは、内部のアルゴリズム構造と観察された行動能力とをリンクし、構成推論をサポートするモジュラーで解釈可能なメカニズムを発達させることが示されている。
関連論文リスト
- Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning [50.99796659680724]
本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。
我々は,OOD一般化の強化を目的とした4つのアーキテクチャ機構のセットを紹介し,検討する。
我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
論文 参考訳(メタデータ) (2025-10-15T21:03:59Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks [5.522116934552708]
トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。
本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Learning Syntax Without Planting Trees: Understanding Hierarchical Generalization in Transformers [74.96551626420188]
自然言語データに基づいて訓練されたトランスフォーマーは、その階層構造を学習し、目に見えない構文構造を持つ文に一般化することが示されている。
本研究では,変圧器モデルにおける帰納バイアスの発生源と,そのような一般化行動を引き起こす可能性のあるトレーニングについて検討する。
論文 参考訳(メタデータ) (2024-04-25T07:10:29Z) - Inducing Systematicity in Transformers by Attending to Structurally
Quantized Embeddings [60.698130703909804]
トランスフォーマーは、複雑なデータセットでトレーニングされた後、構造と実体の新規な構成に一般化する。
本稿では,SQ-Transformerを提案する。
SQ-Transformerは,複数の低複雑さ意味解析および機械翻訳データセット上で,バニラ変換器よりも強い構成一般化を実現することを示す。
論文 参考訳(メタデータ) (2024-02-09T15:53:15Z) - Systematic Generalization and Emergent Structures in Transformers
Trained on Structured Tasks [6.525090891505941]
我々は、因果変換器が、コピー、ソート、階層的な構成を含む一連のアルゴリズムタスクを実行する方法を示す。
両層変換器は多層問題に対する一般化可能な解法を学習し,系統的タスク分解の兆候を現示する。
これらの結果は、トランスフォーマーモデルが複雑な決定を再利用可能なマルチレベルポリシーに分解する方法について、重要な洞察を与えてくれる。
論文 参考訳(メタデータ) (2022-10-02T00:46:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。