論文の概要: Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs
- arxiv url: http://arxiv.org/abs/2505.09338v1
- Date: Wed, 14 May 2025 12:33:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-15 21:44:09.455024
- Title: Llama See, Llama Do: A Mechanistic Perspective on Contextual Entrainment and Distraction in LLMs
- Title(参考訳): Llama See, Llama Do:LLMにおける文脈制約と歪みの力学的視点
- Authors: Jingcheng Niu, Xingdi Yuan, Tong Wang, Hamidreza Saghir, Amir H. Abdi,
- Abstract要約: 我々は,様々な言語モデル (LM) にまたがる新しい現象,文脈学習を観察し,迅速な設定を行う。
文脈的エントレメントの大きさが意味的要因の影響を受けているという統計的に有意な証拠が得られている。
- 参考スコア(独自算出の注目度): 16.766414745922628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We observe a novel phenomenon, contextual entrainment, across a wide range of language models (LMs) and prompt settings, providing a new mechanistic perspective on how LMs become distracted by ``irrelevant'' contextual information in the input prompt. Specifically, LMs assign significantly higher logits (or probabilities) to any tokens that have previously appeared in the context prompt, even for random tokens. This suggests that contextual entrainment is a mechanistic phenomenon, occurring independently of the relevance or semantic relation of the tokens to the question or the rest of the sentence. We find statistically significant evidence that the magnitude of contextual entrainment is influenced by semantic factors. Counterfactual prompts have a greater effect compared to factual ones, suggesting that while contextual entrainment is a mechanistic phenomenon, it is modulated by semantic factors. We hypothesise that there is a circuit of attention heads -- the entrainment heads -- that corresponds to the contextual entrainment phenomenon. Using a novel entrainment head discovery method based on differentiable masking, we identify these heads across various settings. When we ``turn off'' these heads, i.e., set their outputs to zero, the effect of contextual entrainment is significantly attenuated, causing the model to generate output that capitulates to what it would produce if no distracting context were provided. Our discovery of contextual entrainment, along with our investigation into LM distraction via the entrainment heads, marks a key step towards the mechanistic analysis and mitigation of the distraction problem.
- Abstract(参考訳): 本研究では,多種多様な言語モデル (LM) にまたがる新しい現象,文脈エントレメント,およびプロンプト設定を観察し,入力プロンプトにおける「無関係」な文脈情報によってLMがどう気を散らすか,という新たな力学的視点を提供する。
具体的には、LMは、以前コンテキストプロンプトに現れた任意のトークンに対して、ランダムトークンであっても、かなり高いロジット(または確率)を割り当てる。
このことは、文脈エントレメントが機械的現象であり、質問や文の他の部分に対するトークンの関連性や意味的関係とは無関係に発生することを示唆している。
文脈的エントレメントの大きさが意味的要因の影響を受けているという統計的に有意な証拠が得られている。
反事実的プロンプトは事実的プロンプトよりも大きな効果を示し、文脈的エントレインメントは機械的現象である一方で、意味的要因によって変調されることを示唆している。
我々は、注意ヘッドの回路、すなわちエントレメントヘッドが、文脈的エントレメント現象に対応していると仮定する。
識別可能なマスキングに基づく新しいエントレーニングヘッド探索法を用いて,これらのヘッドを様々な設定で同定する。
これらのヘッド、すなわち出力を 0 に設定すると、文脈的エントレインメントの効果は著しく減衰し、乱れたコンテキストが提供されない場合、そのヘッドが生成するものにカプセル化する出力を生成する。
コンテクストエントレインメントの発見と、エントレインメントヘッドによるLMイントラクションの解明は、イントラクション問題の機械的解析と緩和に向けた重要なステップとなる。
関連論文リスト
- Attention Reallocation: Towards Zero-cost and Controllable Hallucination Mitigation of MLLMs [62.9348974370985]
約ゼロの余剰コストで幻覚を緩和するための注意再配置(AttnReal)を提案する。
我々のアプローチは,MLLMの注意分布が,歴史的出力トークンによって特徴が支配されるという重要な観測によって動機付けられている。
この観測に基づいて、AttnRealは出力トークンからの過剰な注意をリサイクルし、それを視覚トークンに再配置することで、MLLMの言語優先への依存を軽減します。
論文 参考訳(メタデータ) (2025-03-11T11:52:37Z) - Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning [0.0]
言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T16:30:26Z) - Can Language Models Take A Hint? Prompting for Controllable Contextualized Commonsense Inference [12.941933077524919]
我々は、文脈化されたコモンセンス推論を強化するデータ拡張手法である"hinting"を導入する。
『Hinting』では、ハードプロンプトとソフトプロンプトを併用して推論プロセスの導出を行う。
この結果から,"隠れ"は文脈コモンセンス推論の性能を損なうことなく,制御性の向上を図っている。
論文 参考訳(メタデータ) (2024-10-03T04:32:46Z) - Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - An Analysis and Mitigation of the Reversal Curse [70.13419502543915]
最近の研究は、大型言語モデル(LLM)で注目すべき現象を観測している。
逆の呪文は、$a$と$b$の2つのエンティティを扱う場合、LLMは$aRb$,'という形式でシーケンスを処理するのに優れるが、$bR-1a$'を処理する場合の課題に直面することである。
論文 参考訳(メタデータ) (2023-11-13T17:01:12Z) - On the Role of Attention in Prompt-tuning [90.97555030446563]
本研究では,一層アテンションアーキテクチャのプロンプトチューニングについて検討し,文脈混合モデルについて検討する。
ソフトマックス・プロンプト・アテンションは, ソフトマックス・自己アテンションやリニア・プロンプト・アテンションよりも明らかに表現力が高いことを示す。
また、実際のデータセットに関する理論的洞察を検証し、モデルが文脈関連情報にどのように対応できるかを示す実験も提供する。
論文 参考訳(メタデータ) (2023-06-06T06:23:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。