論文の概要: Is Grokking Worthwhile? Functional Analysis and Transferability of Generalization Circuits in Transformers
- arxiv url: http://arxiv.org/abs/2601.09049v1
- Date: Wed, 14 Jan 2026 00:40:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.208475
- Title: Is Grokking Worthwhile? Functional Analysis and Transferability of Generalization Circuits in Transformers
- Title(参考訳): グローキングは有害か? : 変圧器の一般化回路の機能解析と伝達性
- Authors: Kaiyu He, Zhang Mian, Peilin Wu, Xinya Du, Zhiyu Chen,
- Abstract要約: 本研究は,知識同化と伝達における一般化回路の役割を評価するための研究である。
我々は、暗記された原子の事実を自然に確立された推論経路に統合する過程であると主張している。
- 参考スコア(独自算出の注目度): 15.965423731432422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While Large Language Models (LLMs) excel at factual retrieval, they often struggle with the "curse of two-hop reasoning" in compositional tasks. Recent research suggests that parameter-sharing transformers can bridge this gap by forming a "Generalization Circuit" during a prolonged "grokking" phase. A fundamental question arises: Is a grokked model superior to its non-grokked counterparts on downstream tasks? Furthermore, is the extensive computational cost of waiting for the grokking phase worthwhile? In this work, we conduct a mechanistic study to evaluate the Generalization Circuit's role in knowledge assimilation and transfer. We demonstrate that: (i) The inference paths established by non-grokked and grokked models for in-distribution compositional queries are identical. This suggests that the "Generalization Circuit" does not represent the sudden acquisition of a new reasoning paradigm. Instead, we argue that grokking is the process of integrating memorized atomic facts into an naturally established reasoning path. (ii) Achieving high accuracy on unseen cases after prolonged training and the formation of a certain reasoning path are not bound; they can occur independently under specific data regimes. (iii) Even a mature circuit exhibits limited transferability when integrating new knowledge, suggesting that "grokked" Transformers do not achieve a full mastery of compositional logic.
- Abstract(参考訳): LLM(Large Language Models)は、実際の検索において優れているが、合成タスクにおいて「2ホップ推論の帰結」に苦しむことが多い。
近年の研究では、パラメータ共有変換器は、長期にわたる"グロッキング"フェーズにおいて、"一般化回路"を形成することにより、このギャップを埋めることができることが示唆されている。
ダウンストリームタスクにおいて、非グロッケモデルよりもグラッケモデルの方が優れているか?
さらに、グルーキングフェーズを待つための膨大な計算コストは、価値のあるものなのだろうか?
本研究では,知識の同化と伝達における一般化回路の役割を評価するための力学的研究を行う。
私たちはそれを証明しています。
(i)非グロッケモデルとグロッケモデルによって確立された非分配構成クエリの推論パスは同一である。
これは「一般化回路」が新たな推論パラダイムの突然の獲得を表すものではないことを示唆している。
代わりに、グラッキングは記憶された原子の事実を自然に確立された推論経路に統合する過程であると主張する。
二 特定データ体制下で独立して発生することなく、訓練の長期化及び特定推論経路の形成にともなう未確認症例の高精度化を図ること。
三 成熟回路でさえ、新しい知識を統合する際には、限られた伝達可能性を示し、"グロッキング"変換器が構成論理の完全な習得を達成できないことを示唆する。
関連論文リスト
- Multi-head Transformers Provably Learn Symbolic Multi-step Reasoning via Gradient Descent [66.78052387054593]
この研究は、トランスフォーマーがシンボリックな多段階推論問題をチェーン・オブ・ソート・プロセスを通してどのように解くかを研究する。
モデルがゴールノードからルートへの経路を出力する後方推論タスクと,より複雑な前方推論タスクである。
訓練された一層変圧器は、木々の一般化を保証することにより、両方の課題を確実に解決できることを示す。
論文 参考訳(メタデータ) (2025-08-11T17:40:47Z) - Provable In-Context Learning of Nonlinear Regression with Transformers [66.99048542127768]
In-context Learning (ICL) は、パラメータを更新することなくタスク固有のプロンプトを使用して見えないタスクを実行する能力である。
最近の研究はICLの背後にあるトレーニングのダイナミクスを積極的に探求しており、その多くは比較的単純なタスクに重点を置いている。
本稿では、変換器が文脈内学習能力をいかに獲得するかを明らかにすることを目的として、より複雑な非線形回帰タスクについて検討する。
論文 参考訳(メタデータ) (2025-07-28T00:09:28Z) - How do Transformers Learn Implicit Reasoning? [67.02072851088637]
制御されたシンボリック環境下でトランスフォーマーをスクラッチからトレーニングすることで、暗黙のマルチホップ推論がどのように現れるかを研究する。
原子三重項によるトレーニングは必要ではなく学習を加速し,第2ホップの一般化は特定の構成構造へのクエリレベル露出に依存する。
論文 参考訳(メタデータ) (2025-05-29T17:02:49Z) - Grokking in the Wild: Data Augmentation for Real-World Multi-Hop Reasoning with Transformers [9.50669909278749]
グルーキングを現実の事実データに拡張し、データセットの分散性の課題に対処します。
驚くべきことに、たとえ実際に誤った合成データであっても、創発的推論回路を強化することができる。
提案手法は,マルチホップ推論ベンチマークにおいて最大95-100%の精度を実現する。
論文 参考訳(メタデータ) (2025-04-29T13:33:29Z) - Training Nonlinear Transformers for Chain-of-Thought Inference: A Theoretical Generalization Analysis [82.51626700527835]
チェーン・オブ・シフト(Chain-of-shift, CoT)は、複数の中間ステップを持つ例を用いてクエリを増強することにより、大規模言語モデルの推論能力を実現する効率的な手法である。
CoT の理論的成功にもかかわらず、CoT が成立しても正確な一般化が得られないことを示す。
論文 参考訳(メタデータ) (2024-10-03T03:12:51Z) - Grokked Transformers are Implicit Reasoners: A Mechanistic Journey to the Edge of Generalization [22.033370572209744]
我々は、トランスフォーマーがパラメトリック知識よりも暗黙的に推論できるかどうかを研究する。
我々は2つの代表的な推論タイプ、構成と比較に焦点を当てる。
トランスフォーマーは暗黙の推論を学習できるが、それはグルーキングでしか学べない。
論文 参考訳(メタデータ) (2024-05-23T21:42:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。