論文の概要: Understanding and Controlling Repetition Neurons and Induction Heads in In-Context Learning
- arxiv url: http://arxiv.org/abs/2507.07810v1
- Date: Thu, 10 Jul 2025 14:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.44626
- Title: Understanding and Controlling Repetition Neurons and Induction Heads in In-Context Learning
- Title(参考訳): 文脈学習における繰り返しニューロンと誘導頭部の理解と制御
- Authors: Nhi Hoai Doan, Tatsuya Hiraoka, Kentaro Inui,
- Abstract要約: 本稿では,大規模言語モデル(LLM)の繰り返し入力パターン認識能力と,テキスト内学習(ICL)における性能の関係について検討する。
実験の結果, 反復ニューロンのICL性能への影響は, 居住層の深さによって異なることが明らかとなった。
- 参考スコア(独自算出の注目度): 22.627302782393865
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the relationship between large language models' (LLMs) ability to recognize repetitive input patterns and their performance on in-context learning (ICL). In contrast to prior work that has primarily focused on attention heads, we examine this relationship from the perspective of skill neurons, specifically repetition neurons. Our experiments reveal that the impact of these neurons on ICL performance varies depending on the depth of the layer in which they reside. By comparing the effects of repetition neurons and induction heads, we further identify strategies for reducing repetitive outputs while maintaining strong ICL capabilities.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)の繰り返し入力パターン認識能力と,テキスト内学習(ICL)における性能の関係について検討する。
主に注意頭に焦点を当てた以前の研究とは対照的に、スキルニューロン、特に反復ニューロンの観点から、この関係を考察する。
実験の結果,これらのニューロンのICL性能への影響は,その層厚によって異なることが明らかとなった。
繰り返しニューロンと誘導頭部の効果を比較することにより、強いICL能力を保ちながら繰り返し出力を減少させる戦略をさらに特定する。
関連論文リスト
- Understanding Gated Neurons in Transformers from Their Input-Output Functionality [48.91500104957796]
ニューロンの入力重みと出力重みのコサイン類似性について検討する。
初期中間層ではエンリッチメントニューロンが支配的であり,後期層では枯渇傾向が見られた。
論文 参考訳(メタデータ) (2025-05-23T14:14:17Z) - Discovering Chunks in Neural Embeddings for Interpretability [53.80157905839065]
本稿では, チャンキングの原理を応用して, 人工神経集団活動の解釈を提案する。
まず、この概念を正則性を持つ人工シーケンスを訓練したリカレントニューラルネットワーク(RNN)で実証する。
我々は、これらの状態に対する摂動が関連する概念を活性化または阻害すると共に、入力における概念に対応する同様の繰り返し埋め込み状態を特定する。
論文 参考訳(メタデータ) (2025-02-03T20:30:46Z) - Neuron-Level Differentiation of Memorization and Generalization in Large Language Models [9.504942958632384]
本研究では,大言語モデルがニューロンレベルでの記憶と一般化をいかに区別するかを検討する。
ゼロから訓練されたGPT-2モデルとLoRAで微調整されたLLaMA-3.2モデルの両方の実験は、一貫したニューロンレベルの特殊化を示している。
論文 参考訳(メタデータ) (2024-12-24T15:28:56Z) - Brain-like Functional Organization within Large Language Models [58.93629121400745]
人間の脳は長い間人工知能(AI)の追求にインスピレーションを与えてきた
最近のニューロイメージング研究は、人工ニューラルネットワーク(ANN)の計算的表現と、人間の脳の刺激に対する神経反応との整合性の説得力のある証拠を提供する。
本研究では、人工ニューロンのサブグループと機能的脳ネットワーク(FBN)を直接結合することで、このギャップを埋める。
このフレームワークはANサブグループをFBNにリンクし、大きな言語モデル(LLM)内で脳に似た機能的組織を記述できる。
論文 参考訳(メタデータ) (2024-10-25T13:15:17Z) - Towards Understanding Multi-Task Learning (Generalization) of LLMs via Detecting and Exploring Task-Specific Neurons [45.04661608619081]
大規模言語モデル(LLM)におけるタスク依存ニューロンは,タスク固有データに対する勾配属性によって検出される。
タスク固有のニューロンの重複は、タスク間の一般化と特殊化と強く関連している。
連続学習において,現在のタスク固有ニューロンのみを微調整するニューロンレベルの連続微調整法を提案する。
論文 参考訳(メタデータ) (2024-07-09T01:27:35Z) - Sharing Matters: Analysing Neurons Across Languages and Tasks in LLMs [70.3132264719438]
我々は,タスクや言語間でニューロンの活性化がどのように共有されるかを調べることで,研究ギャップを埋めることを目指している。
我々は、異なる言語にまたがる特定の入力に対する応答に基づいて、ニューロンを4つの異なるカテゴリに分類する。
分析の結果, (i) ニューロン共有のパターンはタスクや例の特徴に大きく影響され, (ii) ニューロン共有は言語類似性に完全には対応しない, (iii) 共有ニューロンは応答の生成において重要な役割を担っている。
論文 参考訳(メタデータ) (2024-06-13T16:04:11Z) - Exploring neural oscillations during speech perception via surrogate gradient spiking neural networks [59.38765771221084]
本稿では、ディープラーニングフレームワークと互換性があり、スケーラブルな、生理学的にインスパイアされた音声認識アーキテクチャを提案する。
本研究では, 終末から終末までの勾配降下訓練が, 中枢スパイク神経ネットワークにおける神経振動の出現に繋がることを示す。
本研究は, スパイク周波数適応やリカレント接続などのフィードバック機構が, 認識性能を向上させるために, 神経活動の調節と同期に重要な役割を担っていることを明らかにする。
論文 参考訳(メタデータ) (2024-04-22T09:40:07Z) - The Dormant Neuron Phenomenon in Deep Reinforcement Learning [26.09145694804957]
深層強化学習において,エージェントのネットワークが不活性ニューロンの増加に悩まされる休眠性ニューロン現象を同定する。
本稿では, ドミナントニューロンを学習中にリサイクルする簡易かつ効果的な方法(ReDo)を提案する。
実験により、ReDoは休眠ニューロン数を減らし、ネットワークの表現力を維持し、性能を向上することを示した。
論文 参考訳(メタデータ) (2023-02-24T21:20:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。