論文の概要: Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
- arxiv url: http://arxiv.org/abs/2501.15857v1
- Date: Mon, 27 Jan 2025 08:34:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 14:00:10.727786
- Title: Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data?
- Title(参考訳): トランスフォーマーは、訓練データにおける別個の知識を結びつけることで推論し易いか?
- Authors: Yutong Yin, Zhaoran Wang,
- Abstract要約: 人間は、様々な情報源からの知識を統合することで、顕著な構成的推論を示す。
本稿では,このスキルを再現する上でのトランスフォーマーの可能性を検証するための合成学習タスクを提案する。
数発のChain-of-Thoughtプロンプトにより、TransformersはFTCT上でコンストラクショナル推論を行うことができる。
- 参考スコア(独自算出の注目度): 55.90575874130038
- License:
- Abstract: Humans exhibit remarkable compositional reasoning by integrating knowledge from various sources. For example, if someone learns ( B = f(A) ) from one source and ( C = g(B) ) from another, they can deduce ( C=g(B)=g(f(A)) ) even without encountering ( ABC ) together, showcasing the generalization ability of human intelligence. In this paper, we introduce a synthetic learning task, "FTCT" (Fragmented at Training, Chained at Testing), to validate the potential of Transformers in replicating this skill and interpret its inner mechanism. In the training phase, data consist of separated knowledge fragments from an overall causal graph. During testing, Transformers must infer complete causal graph traces by integrating these fragments. Our findings demonstrate that few-shot Chain-of-Thought prompting enables Transformers to perform compositional reasoning on FTCT by revealing correct combinations of fragments, even if such combinations were absent in the training data. Furthermore, the emergence of compositional reasoning ability is strongly correlated with the model complexity and training-testing data similarity. We propose, both theoretically and empirically, that Transformers learn an underlying generalizable program from training, enabling effective compositional reasoning during testing.
- Abstract(参考訳): 人間は、様々な情報源からの知識を統合することで、顕著な構成的推論を示す。
例えば、ある情報源から (B = f(A) ) を、別の情報源から (C = g(B) ) を学習すると、(ABC ) に遭遇することなく (C=g(B)=g(f(A)) を推定でき、人間の知能の一般化能力を示す。
本稿では,このスキルを再現し,その内部メカニズムを解釈する上でのトランスフォーマーの可能性を検証するために,総合学習タスクであるFTCT(Fragmented at Training, Chained at Testing)を導入する。
トレーニングフェーズでは、データは全体因果グラフから切り離された知識断片から構成される。
テスト中、Transformerはこれらのフラグメントを統合することで完全な因果グラフトレースを推論しなければならない。
以上の結果から, トレーニングデータにそのような組み合わせがない場合でも, 断片の正確な組み合わせを明らかにすることにより, 変換器がFTCT上で構成的推論を行うことが可能であることが示唆された。
さらに、構成的推論能力の出現は、モデルの複雑さと訓練-テストデータ類似性と強く相関している。
理論的にも経験的にも、トランスフォーマーはトレーニングから基礎となる一般化可能なプログラムを学習し、テスト中に効果的な構成推論を可能にすることを提案する。
関連論文リスト
- Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527837]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - Towards Understanding the Relationship between In-context Learning and Compositional Generalization [7.843029855730508]
私たちは、通常の学習を非常に難しい設定で因果変換器を訓練します。
しかし、このモデルは、初期の例を利用して、後の例に一般化することで、タスクを解くことができる。
データセット、SCAN、COGS、GeoQueryの評価では、この方法でトレーニングされたモデルは、実際に合成の一般化の改善を示している。
論文 参考訳(メタデータ) (2024-03-18T14:45:52Z) - Reasoning in Transformers - Mitigating Spurious Correlations and Reasoning Shortcuts [1.024113475677323]
トランスフォーマー言語モデル(Transformer Language Model)は、自然言語に関する様々なタスクに使用されるニューラルネットワークである。
命題論理における推論を近似するために,変換器の学習範囲について検討する。
We found that SIP-BART is successfully to avoiding reasoning shortcuts, while WP-BART does not。
論文 参考訳(メタデータ) (2024-03-17T19:32:12Z) - Compositional Capabilities of Autoregressive Transformers: A Study on
Synthetic, Interpretable Tasks [23.516986266146855]
我々は合成データ生成プロセスで自己回帰変換器モデルを訓練する。
自己回帰変換器は少量のトレーニングデータから構成構造を学習できることを示す。
論文 参考訳(メタデータ) (2023-11-21T21:16:54Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - Characterizing Intrinsic Compositionality in Transformers with Tree
Projections [72.45375959893218]
トランスのようなニューラルモデルは、入力の異なる部分間で情報を任意にルーティングすることができる。
3つの異なるタスクに対するトランスフォーマーは、トレーニングの過程でより木のようなものになることを示す。
これらの木はモデル挙動を予測し、より木のようなモデルは構成的一般化のテストにおいてより良く一般化する。
論文 参考訳(メタデータ) (2022-11-02T17:10:07Z) - Inducing Transformer's Compositional Generalization Ability via
Auxiliary Sequence Prediction Tasks [86.10875837475783]
体系的な構成性は人間の言語において必須のメカニズムであり、既知の部品の組換えによって新しい表現を作り出すことができる。
既存のニューラルモデルには、記号構造を学習する基本的な能力がないことが示されている。
本稿では,関数の進行と引数のセマンティクスを追跡する2つの補助シーケンス予測タスクを提案する。
論文 参考訳(メタデータ) (2021-09-30T16:41:19Z) - More data or more parameters? Investigating the effect of data structure
on generalization [17.249712222764085]
データの特性は、トレーニング例の数とトレーニングパラメータの数の関数としてテストエラーに影響を与えます。
ラベル内のノイズや入力データの強い異方性がテストエラーと同じような役割を担っていることを示す。
論文 参考訳(メタデータ) (2021-03-09T16:08:41Z) - Category-Learning with Context-Augmented Autoencoder [63.05016513788047]
実世界のデータの解釈可能な非冗長表現を見つけることは、機械学習の鍵となる問題の一つである。
本稿では,オートエンコーダのトレーニングにデータ拡張を利用する新しい手法を提案する。
このような方法で変分オートエンコーダを訓練し、補助ネットワークによって変換結果を予測できるようにする。
論文 参考訳(メタデータ) (2020-10-10T14:04:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。