論文の概要: Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
- arxiv url: http://arxiv.org/abs/2405.15071v3
- Date: Wed, 30 Oct 2024 18:47:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-01 16:58:02.992204
- Title: Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
- Title(参考訳): Grokked Transformers is Implicit Reasoners: a Mechanistic Journey to the Edge of Generalization
- Authors: Boshi Wang, Xiang Yue, Yu Su, Huan Sun,
- Abstract要約: 我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
- 参考スコア(独自算出の注目度): 22.033370572209744
- License:
- Abstract: We study whether transformers can learn to implicitly reason over parametric knowledge, a skill that even the most capable language models struggle with. Focusing on two representative reasoning types, composition and comparison, we consistently find that transformers can learn implicit reasoning, but only through grokking, i.e., extended training far beyond overfitting. The levels of generalization also vary across reasoning types: when faced with out-of-distribution examples, transformers fail to systematically generalize for composition but succeed for comparison. We delve into the model's internals throughout training, conducting analytical experiments that reveal: 1) the mechanism behind grokking, such as the formation of the generalizing circuit and its relation to the relative efficiency of generalizing and memorizing circuits, and 2) the connection between systematicity and the configuration of the generalizing circuit. Our findings guide data and training setup to better induce implicit reasoning and suggest potential improvements to the transformer architecture, such as encouraging cross-layer knowledge sharing. Furthermore, we demonstrate that for a challenging reasoning task with a large search space, GPT-4-Turbo and Gemini-1.5-Pro based on non-parametric memory fail badly regardless of prompting styles or retrieval augmentation, while a fully grokked transformer can achieve near-perfect accuracy, showcasing the power of parametric memory for complex reasoning.
- Abstract(参考訳): トランスフォーマーがパラメトリックな知識よりも暗黙的に理屈を学べるかどうかは、最も有能な言語モデルでさえも苦戦するスキルである。
コンポジションと比較という2つの代表的な推論タイプに注目して、トランスフォーマーは暗黙の推論を学習できるが、グラクキングによって、すなわち過度な適合をはるかに超える訓練をすることができる。
一般化のレベルは推論の種類によって異なる: 分布外例に直面した場合、変換器は構成を体系的に一般化することができないが、比較で成功する。
トレーニングを通じてモデルの内部を掘り下げ、分析実験を行います。
1)一般化回路の形成及び一般化回路の相対効率との関係等のグラッキングのメカニズム
2) 系統性と一般化回路の構成の関連性
この結果から,暗黙的推論の促進と階層間知識共有の促進など,トランスフォーマーアーキテクチャの潜在的な改善が示唆された。
さらに,大規模な探索空間を持つ挑戦的推論タスクにおいて,非パラメトリックメモリに基づくGPT-4-TurboとGemini-1.5-Proは,入力スタイルや検索拡張によらず失敗することを示した。
関連論文リスト
- Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data? [55.90575874130038]
人間は、様々な情報源からの知識を統合することで、顕著な構成的推論を示す。
本稿では,このスキルを再現する上でのトランスフォーマーの可能性を検証するための合成学習タスクを提案する。
数発のChain-of-Thoughtプロンプトにより、TransformersはFTCT上でコンストラクショナル推論を行うことができる。
論文 参考訳(メタデータ) (2025-01-27T08:34:38Z) - Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。
変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。
変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文 参考訳(メタデータ) (2025-01-01T07:05:32Z) - Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。
まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。
次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文 参考訳(メタデータ) (2024-11-07T21:25:58Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。
本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-08-19T16:47:46Z) - When can transformers reason with abstract symbols? [25.63285482210457]
大規模なタスク群における関係推論タスクに対して、変換器は抽象的関係を学習し、テストセットに一般化する。
これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。
論文 参考訳(メタデータ) (2023-10-15T06:45:38Z) - Birth of a Transformer: A Memory Viewpoint [25.294093283819443]
トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。
より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。
本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
論文 参考訳(メタデータ) (2023-06-01T15:30:33Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。
硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文 参考訳(メタデータ) (2021-06-30T17:09:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。