論文の概要: Multi-Layer Attention is the Amplifier of Demonstration Effectiveness
- arxiv url: http://arxiv.org/abs/2508.00385v1
- Date: Fri, 01 Aug 2025 07:26:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.773018
- Title: Multi-Layer Attention is the Amplifier of Demonstration Effectiveness
- Title(参考訳): 多層アテンションは実証効果の増幅である
- Authors: Dingzirui Wang, Xuangliang Zhang, Keyan Xu, Qingfu Zhu, Wanxiang Che, Yang Deng,
- Abstract要約: 本稿では,実証の非効率性の原因について考察する。
勾配フローをゼロにすることで、その情報がモデルによって学習されたり、ユーザクエリに無関係であったりした場合、デモは効果がないと推定する。
現在のデモ選択手法は,モデルがすでに同化している情報を見越しながら,ユーザクエリの関連性に主眼を置いているため,GradSと呼ばれる新しい手法を提案する。
- 参考スコア(独自算出の注目度): 48.2949050799998
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Numerous studies have investigated the underlying mechanisms of in-context learning (ICL) effectiveness to inspire the design of related methods. However, existing work predominantly assumes the effectiveness of the demonstrations provided within ICL, while many research indicates that not all demonstrations are effective, failing to yielding any performance improvement during ICL. Therefore, in this paper, we investigate the reasons behind demonstration ineffectiveness. Our analysis is based on gradient flow and linear self-attention models. By setting the gradient flow to zero, we deduce that a demonstration becomes ineffective if its information has either been learned by the model or is irrelevant to the user query. Furthermore, we demonstrate that in multi-layer models, the disparity in effectiveness among demonstrations is amplified with layer increasing, causing the model to focus more on effective ones. Considering that current demonstration selection methods primarily focus on the relevance to the user query while overlooking the information that the model has already assimilated, we propose a novel method called GradS, which leverages gradient flow for demonstration selection. We use the magnitude of the gradient flow of the demonstration with respect to a given user query as the criterion, thereby ensuring the effectiveness of the chosen ones. We validate our derivation and GradS on four prominent LLMs across five mainstream datasets. The experimental results confirm that the disparity in effectiveness among demonstrations is magnified as the model layer increases, substantiating our derivations. Moreover, GradS achieves a relative improvement of $6.8\%$ on average over the strongest baselines, demonstrating its effectiveness.
- Abstract(参考訳): インコンテキスト学習(ICL)の有効性の基盤となるメカニズムを多くの研究で研究し、関連する手法の設計を刺激している。
しかし、既存の研究は、ICL内で提供される実演の有効性を主に前提としており、多くの研究は、すべての実演が効果的であるとは限らないことを示しており、ICCでのパフォーマンス改善が得られていない。
そこで本稿では,実証の非効率性の原因について検討する。
解析は勾配流と線形自己アテンションモデルに基づく。
勾配フローをゼロにすることで、その情報がモデルによって学習されたり、ユーザクエリに無関係であったりした場合、デモは効果がないと推定する。
さらに, 多層モデルでは, 実演における有効性の相違が増大し, モデルがより効果的に焦点を絞ることが示される。
現在のデモ選択法は,モデルがすでに同化している情報を見越しながら,ユーザクエリの関連性に主眼を置いているため,デモ選択に勾配フローを利用するGradSと呼ばれる新しい手法を提案する。
我々は、所定のユーザクエリに対して、デモの勾配流の大きさを基準として使用し、選択したクエリの有効性を保証する。
5つの主流データセットにまたがる4つの著名なLCM上で、導出とGradSを検証する。
実験結果から, モデル層が増大するにつれて, 実演効果の相違が拡大し, 導出を裏付けることがわかった。
さらに、GradSは最強のベースラインに対して平均6.8\%の相対的な改善を実現し、その効果を実証している。
関連論文リスト
- Leveraging In-Context Learning for Language Model Agents [51.2996117207114]
インコンテキスト学習(ICL)と動的に選択されたデモは、大規模言語モデル(LLM)の柔軟性と、トレーニングデータを活用してパフォーマンスを向上させる能力を組み合わせたものだ。
実演における類似タスクの軌道選択は, LLMエージェントの性能, 信頼性, 堅牢性, 効率を著しく向上させることを示す。
より大規模なモデル(アノテーションフェーズ)から得られた実演により、より小さなモデルも改善され、ICLエージェントはよりコストのかかる訓練されたエージェントと競合する可能性がある。
論文 参考訳(メタデータ) (2025-06-16T05:37:49Z) - Imitation Learning from Suboptimal Demonstrations via Meta-Learning An Action Ranker [9.6508237676589]
模倣学習における大きなボトルネックは、多数の専門家によるデモンストレーションの要求である。
メタラーニング・アクション・ローダ(ILMAR)による模倣学習という新しい手法を提案する。
ILMARは、限定された専門家によるデモンストレーションと補足的なデモに重み付けされた行動クローニング(BC)を実装している。
論文 参考訳(メタデータ) (2024-12-28T16:06:44Z) - DemoShapley: Valuation of Demonstrations for In-Context Learning [20.26604061802236]
インコンテキスト学習(ICL)を用いた大規模言語モデル(LLM)は、タスク固有の微調整なしで多くのタスクを抽出する。
本研究では,Data ShapleyとBeta ShapleyにインスパイアされたDemoShapleyとBeta-DemoShapleyを提案する。
論文 参考訳(メタデータ) (2024-10-10T01:35:03Z) - Focused Large Language Models are Stable Many-Shot Learners [18.783939647966776]
In-Context Learning (ICL)により、大規模な言語モデル(LLM)がデモから学習することで、迅速なタスク適応を実現することができる。
重要でないコンテンツから注意を逸らすことを避けるために,自明なフィルタリングを行う訓練不要なFocusICLを提案する。
その結果,FocusICLはバニラICLよりも平均5.2%の性能向上を実現し,多くの実演に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-08-26T02:53:24Z) - Enhancing In-Context Learning via Implicit Demonstration Augmentation [26.78252788538567]
In-context Learning (ICL) は、事前訓練された言語モデルがパラメータを更新せずに未確認入力の予測を行うことを可能にする。
その可能性にもかかわらず、ICLの有効性はデモの質、量、置換に大きく依存している。
本稿では,この課題に初めて挑戦する。
論文 参考訳(メタデータ) (2024-06-27T05:25:46Z) - DETAIL: Task DEmonsTration Attribution for Interpretable In-context Learning [75.68193159293425]
インコンテキスト学習(ICL)により、トランスフォーマーベースの言語モデルでは、パラメータを更新することなく、いくつかの"タスクデモ"で特定のタスクを学習することができる。
ICLの特徴に対処する影響関数に基づく帰属手法DETAILを提案する。
ホワイトボックスモデルで得られた属性スコアがブラックボックスモデルに転送可能であることを示すことにより、モデル性能を向上させる上で、DETAILの広範な適用性を実験的に証明する。
論文 参考訳(メタデータ) (2024-05-22T15:52:52Z) - In-Context Learning Demonstration Selection via Influence Analysis [11.504012974208466]
大規模言語モデル(LLM)は、ICL(In-Context Learning)機能を披露した。
その利点にもかかわらず、ICLの有効性はデモの選択に大きく依存している。
本稿では,インフルエンス関数を用いてトレーニングサンプルの影響を解析する,InfICLという実演選択手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T00:39:31Z) - Revisiting Demonstration Selection Strategies in In-Context Learning [66.11652803887284]
大規模言語モデル(LLM)は、インコンテキスト学習(ICL)を用いて広範囲のタスクを実行するという印象的な能力を示している。
本研究ではまず,データとモデルの両方の側面から,この分散に寄与する要因を再検討し,実演の選択がデータとモデルに依存していることを確かめる。
本研究では,データとモデルに依存した実演選択手法である textbfTopK + ConE を提案する。
論文 参考訳(メタデータ) (2024-01-22T16:25:27Z) - Improving Input-label Mapping with Demonstration Replay for In-context
Learning [67.57288926736923]
In-context Learning (ICL)は、大規模な自己回帰言語モデルの出現する能力である。
Sliding Causal Attention (RdSca) と呼ばれる新しいICL法を提案する。
ICL実験において,本手法は入力ラベルマッピングを大幅に改善することを示す。
論文 参考訳(メタデータ) (2023-10-30T14:29:41Z) - Dynamic Demonstrations Controller for In-Context Learning [48.455265597575675]
In-context Learning (ICL)は自然言語処理のための新しいパラダイムである
デモの数はモデル性能と正の相関関係にあると一般的に信じられている。
デモ数を調整することでICLの性能を向上させる動的デモ制御器(D$2$Controller)を提案する。
論文 参考訳(メタデータ) (2023-09-30T14:04:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。