論文の概要: Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning
- arxiv url: http://arxiv.org/abs/2510.14095v1
- Date: Wed, 15 Oct 2025 21:03:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.617307
- Title: Unlocking Out-of-Distribution Generalization in Transformers via Recursive Latent Space Reasoning
- Title(参考訳): Recursive Latent Space Reasoningによる変圧器のアウト・オブ・ディストリビューション一般化の解法
- Authors: Awni Altabaa, Siyu Chen, John Lafferty, Zhuoran Yang,
- Abstract要約: 本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。
我々は,OOD一般化の強化を目的とした4つのアーキテクチャ機構のセットを紹介し,検討する。
我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
- 参考スコア(独自算出の注目度): 50.99796659680724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Systematic, compositional generalization beyond the training distribution remains a core challenge in machine learning -- and a critical bottleneck for the emergent reasoning abilities of modern language models. This work investigates out-of-distribution (OOD) generalization in Transformer networks using a GSM8K-style modular arithmetic on computational graphs task as a testbed. We introduce and explore a set of four architectural mechanisms aimed at enhancing OOD generalization: (i) input-adaptive recurrence; (ii) algorithmic supervision; (iii) anchored latent representations via a discrete bottleneck; and (iv) an explicit error-correction mechanism. Collectively, these mechanisms yield an architectural approach for native and scalable latent space reasoning in Transformer networks with robust algorithmic generalization capabilities. We complement these empirical results with a detailed mechanistic interpretability analysis that reveals how these mechanisms give rise to robust OOD generalization abilities.
- Abstract(参考訳): トレーニング分布を超えた体系的で構成的な一般化は、マシンラーニングにおける中核的な課題であり、現代の言語モデルの創発的な推論能力にとって重要なボトルネックである。
本研究では,GSM8Kスタイルのモジュラー演算をテストベッドとして用いたTransformerネットワークにおけるアウト・オブ・ディストリビューション(OOD)の一般化について検討する。
OODの一般化を促進するための4つのアーキテクチャメカニズムを紹介し,検討する。
(i)入力適応再発
(ii)アルゴリズムの監督
三 離散的ボトルネックによる潜伏表現の固定
(iv)明示的なエラー訂正機構。
これらのメカニズムは、堅牢なアルゴリズム一般化機能を持つTransformerネットワークにおいて、ネイティブでスケーラブルな潜在空間推論のためのアーキテクチャ的アプローチをもたらす。
我々はこれらの実験結果を詳細な機械論的解釈可能性分析で補完し、これらのメカニズムがOOD一般化能力をいかに高めるかを明らかにする。
関連論文リスト
- Propositional Logic for Probing Generalization in Neural Networks [3.6037930269014633]
本稿では,3つの重要なニューラルネットワーク(Transformers, Graph Convolution Networks, LSTMs)の,命題論理に根ざした制御タスクにおける一般化挙動について検討する。
構造バイアスを導入しなければ,Transformerはネゲーションを構成的に適用できないことがわかった。
本研究は,論理演算子の体系的表現を学習する標準的なアーキテクチャの能力において,永続的な限界を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-10T16:46:05Z) - Partial Transportability for Domain Generalization [56.37032680901525]
本稿では, 部分的同定と輸送可能性の理論に基づいて, 対象分布の関数値の有界化に関する新たな結果を紹介する。
我々の貢献は、輸送可能性問題に対する最初の一般的な評価手法を提供することである。
本稿では,スケーラブルな推論を実現するための勾配に基づく最適化手法を提案する。
論文 参考訳(メタデータ) (2025-03-30T22:06:37Z) - Analyzing the Inner Workings of Transformers in Compositional Generalization [15.599899071518545]
本稿では,トランスフォーマーモデルの内部動作について,一般化性能に寄与する既存のサブネットワークを見つけることによって検討する。
モデルが正しい解を出力するための構文的特徴に依存していることがわかったが、全体のモデルよりもはるかに優れた一般化性能を持つサブネットワークは非合成アルゴリズムに依存している。
論文 参考訳(メタデータ) (2025-02-21T08:07:53Z) - GRAM: Generalization in Deep RL with a Robust Adaptation Module [62.662894174616895]
本研究では,深層強化学習における動的一般化の枠組みを提案する。
本稿では,分散環境と分散環境の両方を識別・反応する機構を提供するロバスト適応モジュールを提案する。
我々のアルゴリズムであるGRAMは,展開時の分布内および分布外シナリオにまたがる強力な一般化性能を実現する。
論文 参考訳(メタデータ) (2024-12-05T16:39:01Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Principled Understanding of Generalization for Generative Transformer Models in Arithmetic Reasoning Tasks [5.522116934552708]
トランスフォーマーベースのモデルは様々なタスクにおいて優れているが、その一般化能力、特に算術的推論では、まだ完全には理解されていない。
本稿では,算術課題における変圧器の一般化動作を理解するための統一的理論枠組みを開発する。
論文 参考訳(メタデータ) (2024-07-25T11:35:22Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z) - Target-Embedding Autoencoders for Supervised Representation Learning [111.07204912245841]
本稿では,対象空間が高次元な純粋教師付き環境における一般化の枠組みを解析する。
我々は、教師付き予測のための目標埋め込みオートエンコーダ(TEA)の一般的なフレームワークのモチベーションと形式化を行い、特徴とターゲットの予測の両方から予測可能なように最適化された中間潜在表現を学習する。
論文 参考訳(メタデータ) (2020-01-23T02:37:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。