論文の概要: Universal Response and Emergence of Induction in LLMs
- arxiv url: http://arxiv.org/abs/2411.07071v1
- Date: Mon, 11 Nov 2024 15:47:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:12:50.224260
- Title: Universal Response and Emergence of Induction in LLMs
- Title(参考訳): LLMにおける誘導の普遍応答と創発
- Authors: Niclas Luick,
- Abstract要約: 残水流の弱いシングルトーケン摂動に対する応答を探索し, LLM内の誘導挙動の出現について検討した。
LLMは、摂動強度の変化の下で、その応答がスケール不変な、頑健で普遍的な状態を示す。
その結果,LLM内のコンポーネントの集合的相互作用に関する知見が得られ,大規模回路解析のベンチマークとして機能することがわかった。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: While induction is considered a key mechanism for in-context learning in LLMs, understanding its precise circuit decomposition beyond toy models remains elusive. Here, we study the emergence of induction behavior within LLMs by probing their response to weak single-token perturbations of the residual stream. We find that LLMs exhibit a robust, universal regime in which their response remains scale-invariant under changes in perturbation strength, thereby allowing us to quantify the build-up of token correlations throughout the model. By applying our method, we observe signatures of induction behavior within the residual stream of Gemma-2-2B, Llama-3.2-3B, and GPT-2-XL. Across all models, we find that these induction signatures gradually emerge within intermediate layers and identify the relevant model sections composing this behavior. Our results provide insights into the collective interplay of components within LLMs and serve as a benchmark for large-scale circuit analysis.
- Abstract(参考訳): 誘導はLLMにおける文脈内学習の鍵となるメカニズムと考えられているが、おもちゃモデル以外の正確な回路分解の理解はいまだ解明されていない。
そこで本研究では, LLM内の誘導挙動の出現について, 残留流の弱いシングルトーケン摂動に対する応答を推定することにより検討した。
LLMは、摂動強度の変化の下でその応答がスケール不変な、頑健で普遍的な状態を示し、それによって、モデル全体のトークン相関の蓄積を定量化できる。
本手法を適用し, Gemma-2-2B, Llama-3.2-3B, GPT-2-XLの残留流中の誘導挙動のシグネチャを観察した。
すべてのモデルにおいて、これらの帰納的シグネチャは中間層内で徐々に出現し、この振る舞いを構成する関連するモデルセクションを特定する。
その結果,LLM内のコンポーネントの集合的相互作用に関する知見が得られ,大規模回路解析のベンチマークとして機能することがわかった。
関連論文リスト
- Satori: Reinforcement Learning with Chain-of-Action-Thought Enhances LLM Reasoning via Autoregressive Search [57.28671084993782]
大規模言語モデル(LLM)は、様々な領域にまたがる顕著な推論能力を示している。
近年の研究では、テスト時間計算の増加はLLMの推論能力を高めることが示されている。
そこで我々は,1)COAT推論形式を内部化するための小規模な形式調整段階,2)強化学習を活用した大規模自己改善段階を提案する。
論文 参考訳(メタデータ) (2025-02-04T17:26:58Z) - LF-Steering: Latent Feature Activation Steering for Enhancing Semantic Consistency in Large Language Models [16.37602070339033]
LLM(Large Language Models)は、意味的に等価なパラフレーズ入力によって、しばしば一貫性のない応答を生成する。
セマンティック不整合の原因となる潜在特徴表現を正確に識別する新しいアクティベーションステアリング手法LF-ステアリングを提案する。
本手法は, 関連トランス層の隠蔽状態をスパースオートエンコーダに基づいて, 疎活性化された高次元特徴空間にマッピングする。
論文 参考訳(メタデータ) (2025-01-19T13:06:51Z) - Reinforcement Learning for Aligning Large Language Models Agents with Interactive Environments: Quantifying and Mitigating Prompt Overfitting [40.78026627009521]
強化学習(Reinforcement Learning、RL)は、大規模言語モデル(LLM)知識を逐次意思決定タスクと整合させるための有望なアプローチである。
テキスト環境下でのRL学習後の定式化を促進するために,LLMの感度を解析するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T18:25:35Z) - Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。
本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文 参考訳(メタデータ) (2024-07-17T08:21:06Z) - Induction Heads as an Essential Mechanism for Pattern Matching in In-context Learning [12.911829891263263]
誘導ヘッドの最小アブレーションでもICL性能は抽象的パターン認識タスクで最大32%低下することを示す。
NLPタスクの場合、このアブレーションはモデルがサンプルから恩恵を受ける能力を大幅に低下させ、ゼロショットプロンプトに近い数ショットのICLパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-07-09T16:29:21Z) - Sparsity-Guided Holistic Explanation for LLMs with Interpretable
Inference-Time Intervention [53.896974148579346]
大規模言語モデル(LLM)は、様々な自然言語処理領域において前例のないブレークスルーを達成した。
LLMの謎的なブラックボックスの性質は、透過的で説明可能なアプリケーションを妨げる、解釈可能性にとって重要な課題である。
本稿では,LLMの全体的解釈を提供することを目的として,スポーシティ誘導技術に係わる新しい方法論を提案する。
論文 参考訳(メタデータ) (2023-12-22T19:55:58Z) - On the Relation between Internal Language Model and Sequence Discriminative Training for Neural Transducers [52.88268942796418]
内部言語モデル(ILM)のサブトラクションは、RNN-Transducerの性能向上に広く応用されている。
列識別訓練は, 理論的, 経験的両面からILMサブトラクションと強く相関していることを示す。
論文 参考訳(メタデータ) (2023-09-25T13:35:28Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Extreme Memorization via Scale of Initialization [72.78162454173803]
我々は,初期化の規模を変えることが,SGDによって誘導される暗黙の正規化に強く影響を与える実験装置を構築する。
一般化能力に影響を及ぼす範囲と方法が、使用したアクティベーションと損失関数に依存することがわかった。
均質なReLU活性化の場合、この挙動は損失関数に起因することが示される。
論文 参考訳(メタデータ) (2020-08-31T04:53:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。