論文の概要: Relational reasoning and inductive bias in transformers trained on a transitive inference task
- arxiv url: http://arxiv.org/abs/2506.04289v1
- Date: Wed, 04 Jun 2025 10:15:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.32955
- Title: Relational reasoning and inductive bias in transformers trained on a transitive inference task
- Title(参考訳): 過渡的推論課題を訓練した変圧器における関係推論と帰納バイアス
- Authors: Jesse Geerts, Stephanie Chan, Claudia Clopath, Kimberly Stachenfeld,
- Abstract要約: トランスフォーマーに基づくモデルは、顕著な推論能力を示してきたが、関係推論のメカニズムはいまだに理解されていない。
本研究では,トランスフォーマーが古典的リレーショナル推論タスクをどのように実行するかを検討する。
In-weights Learning (IWL) とIn-context Learning (ICL) の2つの異なる学習形態における推移的推論挙動を比較する。
これらの結果は、基礎構造を持つタスクの事前学習が、文脈内関係推論を足場とした表現の開発を促進することを示唆している。
- 参考スコア(独自算出の注目度): 2.493955263354982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have demonstrated remarkable reasoning abilities, but the mechanisms underlying relational reasoning in different learning regimes remain poorly understood. In this work, we investigate how transformers perform a classic relational reasoning task from the Psychology literature, \textit{transitive inference}, which requires inference about indirectly related items by integrating information across observed adjacent item pairs (e.g., if A>B and B>C, then A>C). We compare transitive inference behavior across two distinct learning regimes: in-weights learning (IWL), where models store information in network parameters, and in-context learning (ICL), where models flexibly utilize information presented within the input sequence. Our findings reveal that IWL naturally induces a generalization bias towards transitive inference, despite being trained only on adjacent items, whereas ICL models trained solely on adjacent items do not generalize transitively. Mechanistic analysis shows that ICL models develop induction circuits that implement a simple match-and-copy strategy that performs well at relating adjacent pairs, but does not encoding hierarchical relationships among indirectly related items. Interestingly, when pre-trained on in-context linear regression tasks, transformers successfully exhibit in-context generalizable transitive inference. Moreover, like IWL, they display both \textit{symbolic distance} and \textit{terminal item effects} characteristic of human and animal performance, without forming induction circuits. These results suggest that pre-training on tasks with underlying structure promotes the development of representations that can scaffold in-context relational reasoning.
- Abstract(参考訳): トランスフォーマーに基づくモデルは顕著な推論能力を示してきたが、異なる学習体制における関係推論のメカニズムはいまだに理解されていない。
本研究は, トランスフォーマーが心理学文献『textit{transitive inference}』から古典的リレーショナル推論タスクを実行する方法を検討するものである。
In-weights Learning (IWL) とIn-context Learning (ICL) の2つの異なる学習形態における推移的推論挙動を比較する。
以上の結果から,IWLは隣接項目のみを訓練したICLモデルに対して,隣接項目のみを訓練したICLモデルは推移的に一般化しないにもかかわらず,自然に推移的推論に対する一般化バイアスを生じさせることが明らかとなった。
メカニスティック解析により、ICLモデルは、近接するペアの関連性が良く、間接的に関連するアイテム間の階層的関係を符号化しない単純なマッチング・アンド・コピー戦略を実装した誘導回路を開発することが示された。
興味深いことに、インコンテキスト線形回帰タスクで事前訓練された場合、トランスフォーマーはインコンテキストの一般化可能な推移的推論を成功させる。
さらに、IWLと同様に、誘導回路を形成することなく、人間と動物のパフォーマンスに特徴的な \textit{symbolic distance} と \textit{terminal item effect} の両方を表示する。
これらの結果から,基本構造を持つタスクの事前学習が,文脈内関係推論の足場となる表現の開発を促進することが示唆された。
関連論文リスト
- How does Transformer Learn Implicit Reasoning? [41.315116538534106]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Toward Understanding In-context vs. In-weight Learning [50.24035812301655]
本研究は,文脈内学習の出現と消失を引き起こす簡易な分布特性を同定する。
そして、この研究を完全な大規模言語モデルに拡張し、自然言語プロンプトの様々なコレクションの微調整が、文脈内および重み付き学習の振る舞いをいかに引き出すかを示す。
論文 参考訳(メタデータ) (2024-10-30T14:09:00Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Inductive Relation Prediction from Relational Paths and Context with
Hierarchical Transformers [23.07740200588382]
本稿では,エンティティ間の関係と固有性の両方をキャプチャする手法を提案する。
因果関係は関係意味論にのみ依存しており、完全に帰納的な設定に自然に一般化することができる。
実験では、2つの完全帰納的データセットの8つのバージョンサブセットのほぼすべてのベースラインに対して、Actionalは一貫してパフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-04-01T03:49:47Z) - Abstractors and relational cross-attention: An inductive bias for explicit relational reasoning in Transformers [4.562331048595688]
抽象モジュールと呼ばれる新しいモジュールを通じて明示的なリレーショナル推論を可能にするトランスフォーマーの拡張が提案されている。
Abstractorの中核には、リレーショナル・クロスアテンション(relational cross-attention)と呼ばれる注意の亜種がある。
このアプローチは、関係情報をオブジェクトレベルの特徴から切り離す関係学習のためのアーキテクチャ的帰納的バイアスによって動機付けられます。
論文 参考訳(メタデータ) (2023-04-01T01:49:08Z) - On Neural Architecture Inductive Biases for Relational Tasks [76.18938462270503]
合成ネットワーク一般化(CoRelNet)と呼ばれる類似度分布スコアに基づく簡単なアーキテクチャを導入する。
単純なアーキテクチャの選択は、分布外一般化において既存のモデルより優れていることが分かる。
論文 参考訳(メタデータ) (2022-06-09T16:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。