論文の概要: The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
- arxiv url: http://arxiv.org/abs/2505.15807v1
- Date: Wed, 21 May 2025 17:59:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:59.823763
- Title: The Atlas of In-Context Learning: How Attention Heads Shape In-Context Retrieval Augmentation
- Title(参考訳): 文脈内学習のアトラス : 意図の頭が文脈内検索の強化にどのように貢献するか
- Authors: Patrick Kahardipraja, Reduan Achtibat, Thomas Wiegand, Wojciech Samek, Sebastian Lapuschkin,
- Abstract要約: 我々は、情報成分の合成としてプロンプトを眺めることで、質問応答のための文脈内検索強化のメカニズムについて光を当てた。
そこで本研究では,属性に基づく特殊注意ヘッドの同定手法を提案し,指示を理解し,関連するコンテキスト情報を検索するコンテキスト内ヘッドを明らかにする。
得られた洞察を活用して、推論時に使用される知識のソースをトレースし、より安全で透明な言語モデルへの道を開く。
- 参考スコア(独自算出の注目度): 15.81218734180628
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models are able to exploit in-context learning to access external knowledge beyond their training data through retrieval-augmentation. While promising, its inner workings remain unclear. In this work, we shed light on the mechanism of in-context retrieval augmentation for question answering by viewing a prompt as a composition of informational components. We propose an attribution-based method to identify specialized attention heads, revealing in-context heads that comprehend instructions and retrieve relevant contextual information, and parametric heads that store entities' relational knowledge. To better understand their roles, we extract function vectors and modify their attention weights to show how they can influence the answer generation process. Finally, we leverage the gained insights to trace the sources of knowledge used during inference, paving the way towards more safe and transparent language models.
- Abstract(参考訳): 大規模言語モデルは、検索・拡張を通じて、トレーニングデータ以外の外部知識にアクセスするために、コンテキスト内学習を利用することができる。
将来性はあるものの、内部の作業は未だ不明である。
本研究では,情報成分の合成としてプロンプトを視認することで,質問応答の文脈内検索強化のメカニズムを明らかにする。
そこで本研究では,特殊注意を識別する属性に基づく手法を提案し,指示を理解し,関連するコンテキスト情報を検索するコンテキスト内ヘッドと,エンティティの関連知識を記憶するパラメトリックヘッドを提案する。
それらの役割をよりよく理解するために,関数ベクトルを抽出し,注意重みを修正し,それらが解答生成プロセスにどのように影響するかを示す。
最後に、得られた洞察を活用して、推論時に使用される知識のソースをトレースし、より安全で透明な言語モデルへの道を開く。
関連論文リスト
- Identifying Semantic Induction Heads to Understand In-Context Learning [103.00463655766066]
自然言語に存在するトークン間の2種類の関係を,注目ヘッドが符号化するかどうかを検討する。
特定の注意ヘッドは、ヘッドトークンに出席する際、テールトークンをリコールし、テールトークンの出力ロジットを増加させるパターンを示す。
論文 参考訳(メタデータ) (2024-02-20T14:43:39Z) - Knowledge Graphs and Pre-trained Language Models enhanced Representation Learning for Conversational Recommender Systems [58.561904356651276]
本稿では,対話型推薦システムのためのエンティティの意味理解を改善するために,知識強化型エンティティ表現学習(KERL)フレームワークを紹介する。
KERLは知識グラフと事前訓練された言語モデルを使用して、エンティティの意味的理解を改善する。
KERLはレコメンデーションとレスポンス生成の両方のタスクで最先端の結果を達成する。
論文 参考訳(メタデータ) (2023-12-18T06:41:23Z) - Knowledge Graph Augmented Network Towards Multiview Representation
Learning for Aspect-based Sentiment Analysis [96.53859361560505]
本稿では,知識グラフ拡張ネットワーク(KGAN)を提案する。
KGANは感情の特徴表現を、文脈、構文、知識に基づく複数の視点から捉えている。
3つの人気のあるABSAベンチマークの実験は、我々のKGANの有効性と堅牢性を示している。
論文 参考訳(メタデータ) (2022-01-13T08:25:53Z) - External Knowledge Augmented Text Visual Question Answering [0.6445605125467573]
本稿では,視覚言語理解タスクのための標準マルチモーダルトランスフォーマー上で知識を抽出,フィルタリング,エンコードするフレームワークを提案する。
2つの公開データセット上で、最先端のデータセットに匹敵する結果を生成する。
論文 参考訳(メタデータ) (2021-08-22T13:21:58Z) - Coarse-to-Careful: Seeking Semantic-related Knowledge for Open-domain
Commonsense Question Answering [12.406729445165857]
背景コモンセンスを必要とする質問に機械が答えるのを助けるために、外部知識を利用するのが一般的である。
本稿では,知識注入を粗大から粗大に制御する意味駆動型知識認識型QAフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-04T10:56:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。