論文の概要: Retrieval Head Mechanistically Explains Long-Context Factuality
- arxiv url: http://arxiv.org/abs/2404.15574v1
- Date: Wed, 24 Apr 2024 00:24:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-25 15:03:25.041322
- Title: Retrieval Head Mechanistically Explains Long-Context Factuality
- Title(参考訳): 長期的特徴を機械的に説明する検索型頭部
- Authors: Wenhao Wu, Yizhong Wang, Guangxuan Xiao, Hao Peng, Yao Fu,
- Abstract要約: 我々は,検索ヘッドをダブする特別なタイプの注意ヘッドが,主に情報検索に責任があることを実証した。
本研究は,検索ヘッドが思考の連鎖(CoT)推論に強く影響していることを示し,モデルが質問や以前生成した文脈を頻繁に参照する必要があることを示す。
我々は、幻覚の低減、推論の改善、KVキャッシュの圧縮に関する今後の研究を促進すると信じている。
- 参考スコア(独自算出の注目度): 56.78951509492645
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite the recent progress in long-context language models, it remains elusive how transformer-based models exhibit the capability to retrieve relevant information from arbitrary locations within the long context. This paper aims to address this question. Our systematic investigation across a wide spectrum of models reveals that a special type of attention heads are largely responsible for retrieving information, which we dub retrieval heads. We identify intriguing properties of retrieval heads:(1) universal: all the explored models with long-context capability have a set of retrieval heads; (2) sparse: only a small portion (less than 5\%) of the attention heads are retrieval. (3) intrinsic: retrieval heads already exist in models pretrained with short context. When extending the context length by continual pretraining, it is still the same set of heads that perform information retrieval. (4) dynamically activated: take Llama-2 7B for example, 12 retrieval heads always attend to the required information no matter how the context is changed. The rest of the retrieval heads are activated in different contexts. (5) causal: completely pruning retrieval heads leads to failure in retrieving relevant information and results in hallucination, while pruning random non-retrieval heads does not affect the model's retrieval ability. We further show that retrieval heads strongly influence chain-of-thought (CoT) reasoning, where the model needs to frequently refer back the question and previously-generated context. Conversely, tasks where the model directly generates the answer using its intrinsic knowledge are less impacted by masking out retrieval heads. These observations collectively explain which internal part of the model seeks information from the input tokens. We believe our insights will foster future research on reducing hallucination, improving reasoning, and compressing the KV cache.
- Abstract(参考訳): 近年のロングコンテキスト言語モデルの発展にもかかわらず、トランスフォーマーベースのモデルが、ロングコンテキスト内の任意の場所から関連情報を検索する能力を示すことは、いまだ解明されていない。
本稿ではこの問題に対処することを目的とする。
広範囲のモデルを対象とした系統的な調査により、特別なタイプの注意頭が情報検索に大きく寄与していることが判明した。
検索ヘッドの興味ある特性を以下に示す:(1) 普遍性: 長文能力を持つ探索モデルに一組の検索ヘッドがある; (2) スパース: 注目ヘッドのごく一部(5倍未満)しか検索できない。
(3)本質的:検索ヘッドは、短い文脈で事前訓練されたモデルにすでに存在する。
コンテクスト長を継続事前学習で拡張する場合は、情報検索を行うヘッドのセットと同じである。
例えば、Llama-2 7Bを例にとると、12の検索ヘッドは、コンテキストが変更されても常に必要な情報に対応している。
検索ヘッドの残りの部分は、異なるコンテキストでアクティベートされる。
(5)因果: 完全に刈り取られた検索ヘッドは、関連する情報を取り出すのに失敗し、幻覚を引き起こす一方、ランダムな非検索ヘッドはモデルの検索能力に影響を与えない。
さらに、検索ヘッドは、モデルが頻繁に質問や以前生成されたコンテキストを参照する必要がある場合、思考の連鎖(CoT)推論に強く影響を及ぼすことを示す。
逆に、本質的な知識を用いてモデルが直接回答を生成するタスクは、検索ヘッドをマスキングすることで影響を受けない。
これらの観察は、モデルの内部部が入力トークンから情報を求めるかをまとめて説明する。
我々は、幻覚の低減、推論の改善、KVキャッシュの圧縮に関する今後の研究を促進すると信じている。
関連論文リスト
- Analyzing Human Questioning Behavior and Causal Curiosity through Natural Queries [91.70689724416698]
NatQuest(ナットクエスト)は、3つの異なるソースから自然発生の質問13,500件のコレクションである。
分析の結果,データセット内には因果的疑問(最大42%)が有意な存在であることが判明した。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - From "um" to "yeah": Producing, predicting, and regulating information flow in human conversation [0.0]
約13ビット/秒の非構造化会話の情報密度を推定する。
我々は,その情報の検索と提示の両方の認知負荷に関連する有意な影響を見出した。
以上の結果から,認知資源の変動的要求にどう反応するか,という理論に関する新たな知見が得られた。
論文 参考訳(メタデータ) (2024-03-13T18:20:24Z) - Does the Generator Mind its Contexts? An Analysis of Generative Model
Faithfulness under Context Transfer [42.081311699224585]
本研究は,文脈知識に根ざした情報を生成するための知識増強ジェネレータについて紹介する。
我々の目的は、文脈的知識が変化した際のパラメトリック記憶から生じる幻覚の存在を探ることである。
論文 参考訳(メタデータ) (2024-02-22T12:26:07Z) - Retrieval Helps or Hurts? A Deeper Dive into the Efficacy of Retrieval Augmentation to Language Models [7.537599020279862]
大規模言語モデル(LM)における実体と関係の組合せの効果について検討する。
一般の事実を想起する上で,より大きなLMは優れているが,検索者に比べて少ないエンティティ-リレーションペアでは困難である。
適応型検索システムを用いて,より微細な測定値と洞察値の有効性を実証する。
論文 参考訳(メタデータ) (2024-02-21T03:05:50Z) - Picking the Underused Heads: A Network Pruning Perspective of Attention
Head Selection for Fusing Dialogue Coreference Information [50.41829484199252]
マルチヘッド自己アテンション機構を持つトランスフォーマーベースのモデルは自然言語処理で広く利用されている。
ネットワークプルーニングの観点から,特徴注入のためのアテンションヘッドの選択と操作戦略について検討する。
論文 参考訳(メタデータ) (2023-12-15T05:27:24Z) - Repetition In Repetition Out: Towards Understanding Neural Text
Degeneration from the Data Perspective [91.14291142262262]
この研究は、データの観点から、単純で基本的な説明を提示する。
予備調査では, 退化問題とトレーニングデータにおける反復の有無との間には強い相関関係がみられた。
実験の結果,訓練データにおける繰り返しのペナルティ化は,より大きなモデルサイズや命令のチューニングを考慮しても重要な課題であることがわかった。
論文 参考訳(メタデータ) (2023-10-16T09:35:42Z) - An Overview Of Temporal Commonsense Reasoning and Acquisition [20.108317515225504]
時間的コモンセンス推論(英: Temporal Commonsense reasoning)とは、フレーズ、行動、出来事の典型的な時間的文脈を理解する能力である。
大規模言語モデルの性能に関する最近の研究は、しばしば推論においてショートカットを行い、単純な言語トラップに陥ることが示唆されている。
論文 参考訳(メタデータ) (2023-07-28T01:30:15Z) - RECKONING: Reasoning through Dynamic Knowledge Encoding [51.076603338764706]
言語モデルは、文脈の一部として提供される知識について推論することで、質問に答えることができることを示す。
これらの状況では、モデルは質問に答えるために必要な知識を区別することができない。
我々は、与えられた文脈知識をモデルのパラメータに折り畳み、より堅牢に推論するようにモデルに教えることを提案する。
論文 参考訳(メタデータ) (2023-05-10T17:54:51Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。