Fugu-MT 論文翻訳(概要): Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

論文の概要: Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization

arxiv url: http://arxiv.org/abs/2405.15071v3
Date: Wed, 30 Oct 2024 18:47:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.693902
Title: Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization
Title（参考訳）: Grokked Transformers is Implicit Reasoners: a Mechanistic Journey to the Edge of Generalization
Authors: Boshi Wang, Xiang Yue, Yu Su, Huan Sun,
Abstract要約: 我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
参考スコア（独自算出の注目度）: 22.033370572209744
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We study whether transformers can learn to implicitly reason over parametric knowledge, a skill that even the most capable language models struggle with. Focusing on two representative reasoning types, composition and comparison, we consistently find that transformers can learn implicit reasoning, but only through grokking, i.e., extended training far beyond overfitting. The levels of generalization also vary across reasoning types: when faced with out-of-distribution examples, transformers fail to systematically generalize for composition but succeed for comparison. We delve into the model's internals throughout training, conducting analytical experiments that reveal: 1) the mechanism behind grokking, such as the formation of the generalizing circuit and its relation to the relative efficiency of generalizing and memorizing circuits, and 2) the connection between systematicity and the configuration of the generalizing circuit. Our findings guide data and training setup to better induce implicit reasoning and suggest potential improvements to the transformer architecture, such as encouraging cross-layer knowledge sharing. Furthermore, we demonstrate that for a challenging reasoning task with a large search space, GPT-4-Turbo and Gemini-1.5-Pro based on non-parametric memory fail badly regardless of prompting styles or retrieval augmentation, while a fully grokked transformer can achieve near-perfect accuracy, showcasing the power of parametric memory for complex reasoning.
Abstract（参考訳）: トランスフォーマーがパラメトリックな知識よりも暗黙的に理屈を学べるかどうかは、最も有能な言語モデルでさえも苦戦するスキルである。コンポジションと比較という2つの代表的な推論タイプに注目して、トランスフォーマーは暗黙の推論を学習できるが、グラクキングによって、すなわち過度な適合をはるかに超える訓練をすることができる。一般化のレベルは推論の種類によって異なる: 分布外例に直面した場合、変換器は構成を体系的に一般化することができないが、比較で成功する。トレーニングを通じてモデルの内部を掘り下げ、分析実験を行います。 1)一般化回路の形成及び一般化回路の相対効率との関係等のグラッキングのメカニズム 2) 系統性と一般化回路の構成の関連性この結果から,暗黙的推論の促進と階層間知識共有の促進など,トランスフォーマーアーキテクチャの潜在的な改善が示唆された。さらに,大規模な探索空間を持つ挑戦的推論タスクにおいて,非パラメトリックメモリに基づくGPT-4-TurboとGemini-1.5-Proは,入力スタイルや検索拡張によらず失敗することを示した。

関連論文リスト

Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers [9.50669909278749]
グルーキングを現実の事実データに拡張し、データセットの分散性の課題に対処します。驚くべきことに、たとえ実際に誤った合成データであっても、創発的推論回路を強化することができる。提案手法は,マルチホップ推論ベンチマークにおいて最大95-100%の精度を実現する。
論文参考訳（メタデータ） (2025-04-29T13:33:29Z)
On the Robustness of Transformers against Context Hijacking for Linear Classification [26.1838836907147]
Transformer-based Large Language Models (LLM) は、強力なコンテキスト内学習能力を実証している。それらは、コンテキストハイジャックとして知られる、事実的に正しいコンテキストによって破壊される。十分に訓練された深部変圧器は、経験的観測と整合した高い強靭性を実現することができることを示す。
論文参考訳（メタデータ） (2025-02-21T17:31:00Z)
Are Transformers Able to Reason by Connecting Separated Knowledge in Training Data? [55.90575874130038]
人間は、様々な情報源からの知識を統合することで、顕著な構成的推論を示す。本稿では,このスキルを再現する上でのトランスフォーマーの可能性を検証するための合成学習タスクを提案する。数発のChain-of-Thoughtプロンプトにより、TransformersはFTCT上でコンストラクショナル推論を行うことができる。
論文参考訳（メタデータ） (2025-01-27T08:34:38Z)
Enhancing Transformers for Generalizable First-Order Logical Entailment [51.04944136538266]
本稿では,変圧器のパラメータ化知識を用いた一階論理推論能力について検討する。変圧器の1次推論能力は、その1次論理的推論を実行する能力を通じて評価される。変換器における一階述語論理包含を一般化する能力を高めるため,より洗練された論理型アーキテクチャTEGAを提案する。
論文参考訳（メタデータ） (2025-01-01T07:05:32Z)
Rethinking Associative Memory Mechanism in Induction Head [37.93644115914534]
本稿では,2層トランスフォーマーがコンテキスト内情報を網羅的に捕捉し,事前学習したビッグラム知識とバランスをとる方法について検討する。本稿では,注目層における重み行列の表現と,変換器がビッグラムモデルによって生成されたプロンプトを付与した場合のロジットを理論的に解析する。
論文参考訳（メタデータ） (2024-12-16T05:33:05Z)
One-Layer Transformer Provably Learns One-Nearest Neighbor In Context [48.4979348643494]
本研究では、1層変圧器が1層近傍の規則を学習する能力について検討する。単一のソフトマックスアテンション層は、ワンアレスト隣人のように振る舞うことをうまく学ぶことができる。
論文参考訳（メタデータ） (2024-11-16T16:12:42Z)
Adversarial Robustness of In-Context Learning in Transformers for Linear Regression [23.737606860443705]
本研究は,線形回帰タスクの設定に焦点をあてたテキストハイザック攻撃に対するトランスフォーマにおける文脈内学習の脆弱性について検討する。まず,一層線形変圧器が非破壊的であり,任意の予測を出力できることを示す。次に, 逆行訓練は, ファインタニング時にのみ適用しても, ハイジャック攻撃に対するトランスフォーマーの堅牢性を高めることを実証する。
論文参考訳（メタデータ） (2024-11-07T21:25:58Z)
Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文参考訳（メタデータ） (2024-10-22T21:30:01Z)
How Transformers Implement Induction Heads: Approximation and Optimization Analysis [11.789846138681359]
変換器が誘導ヘッドを実装する方法の近似と最適化の両方を提供する。近似解析では、標準および一般化誘導ヘッド機構の両方を定式化する。最適化解析のために,4-gramと2-gram成分からなる合成混合ターゲットのトレーニングダイナミクスについて検討した。
論文参考訳（メタデータ） (2024-10-15T10:22:27Z)
Unveil Benign Overfitting for Transformer in Vision: Training Dynamics, Convergence, and Generalization [88.5582111768376]
本研究では, ソフトマックスを用いた自己保持層と, 勾配勾配下での完全連結層からなるトランスフォーマーの最適化について検討した。この結果から,データモデルにおける信号対雑音比に基づいて,小さなテストエラー位相と大規模なテストエラー状態とを区別できるシャープ条件を確立した。
論文参考訳（メタデータ） (2024-09-28T13:24:11Z)
In-Context Learning with Representations: Contextual Generalization of Trained Transformers [66.78052387054593]
In-context Learning (ICL) は、事前訓練された大規模言語モデルの能力を指し、推論中にいくつか例を挙げると、新しいタスクを学習できる。本稿では,非線形回帰タスクのレンズによる勾配降下による変圧器のトレーニングダイナミクスについて検討する。
論文参考訳（メタデータ） (2024-08-19T16:47:46Z)
Beyond Scaling Laws: Understanding Transformer Performance with Associative Memory [11.3128832831327]
Transformerモデルのサイズが大きくなると、パフォーマンスが向上するとは限らない。モデルがトレーニングサンプルを記憶するにつれて、一般化能力が向上する。本稿では,変圧器に基づく言語モデルの記憶過程と性能動態に光を当てる理論的枠組みを提案する。
論文参考訳（メタデータ） (2024-05-14T15:48:36Z)
Birth of a Transformer: A Memory Viewpoint [25.294093283819443]
トランスフォーマーに基づく大規模言語モデルは、経験的成功を収めた。より広くデプロイされているため、より信頼性を高めるために、内部メカニズムをよりよく理解する必要がある。本研究では,グローバルあるいはコンテキスト固有のビッグラムからトークンが生成される合成セットアップを考慮し,これらの2種類の知識分布のバランスについて検討する。
論文参考訳（メタデータ） (2023-06-01T15:30:33Z)
Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文参考訳（メタデータ） (2022-12-15T09:21:21Z)
On the Power of Saturated Transformers: A View from Circuit Complexity [87.20342701232869]
飽和変圧器はハードアテンション変圧器の限界を超越していることを示す。硬度から飽和度へのジャンプは、変換器の有効回路深さを$O(log n)$の係数で増加させると解釈できる。
論文参考訳（メタデータ） (2021-06-30T17:09:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。