論文の概要: Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning
- arxiv url: http://arxiv.org/abs/2411.05037v1
- Date: Wed, 06 Nov 2024 16:30:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:56:04.931183
- Title: Towards Interpreting Language Models: A Case Study in Multi-Hop Reasoning
- Title(参考訳): 言語モデルの解釈に向けて:マルチホップ推論を事例として
- Authors: Mansi Sakarvadia,
- Abstract要約: 言語モデル(LM)は、一貫してマルチホップ推論を行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Answering multi-hop reasoning questions requires retrieving and synthesizing information from diverse sources. Language models (LMs) struggle to perform such reasoning consistently. We propose an approach to pinpoint and rectify multi-hop reasoning failures through targeted memory injections on LM attention heads. First, we analyze the per-layer activations of GPT-2 models in response to single- and multi-hop prompts. We then propose a mechanism that allows users to inject relevant prompt-specific information, which we refer to as "memories," at critical LM locations during inference. By thus enabling the LM to incorporate additional relevant information during inference, we enhance the quality of multi-hop prompt completions. We empirically show that a simple, efficient, and targeted memory injection into a key attention layer often increases the probability of the desired next token in multi-hop tasks, by up to 424%. We observe that small subsets of attention heads can significantly impact the model prediction during multi-hop reasoning. To more faithfully interpret these heads, we develop Attention Lens: an open source tool that translates the outputs of attention heads into vocabulary tokens via learned transformations called lenses. We demonstrate the use of lenses to reveal how a model arrives at its answer and use them to localize sources of model failures such as in the case of biased and malicious language generation.
- Abstract(参考訳): マルチホップ推論の質問に答えるには、様々な情報源から情報を検索し、合成する必要がある。
言語モデル(LM)はそのような推論を一貫して行うのに苦労する。
本稿では,LMアテンションヘッド上のターゲットメモリ注入によるマルチホップ推論障害をピンポイントし,修正する手法を提案する。
まず、シングルホッププロンプトとマルチホッププロンプトに応答して、GPT-2モデルの層ごとのアクティベーションを分析する。
そこで我々は,提案するメカニズムにより,利用者が推論中に重要なLM箇所で,関連するプロンプト固有情報を「記憶」として注入できる機構を提案する。
これにより、LMは推論中に追加の関連情報を組み込めるようになり、マルチホッププロンプトの完成度が向上する。
キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて所望の次のトークンの確率を最大424%向上させる。
注意点の小さな部分集合がマルチホップ推論におけるモデル予測に大きな影響を与えることが観察された。
われわれはこれらの頭部をより忠実に解釈するために、アテンションレンズを開発した。これは、アテンションヘッドの出力を、レンズと呼ばれる学習された変換を通して語彙トークンに変換するオープンソースツールである。
偏りのある言語生成や悪意のある言語生成などのモデル障害の原因をローカライズするために、モデルがどのように回答に到達したかを明らかにするために、レンズを用いることを実証する。
関連論文リスト
- Seemingly Plausible Distractors in Multi-Hop Reasoning: Are Large Language Models Attentive Readers? [6.525065859315515]
大規模言語モデル (LLM) がマルチホップ推論ベンチマークの簡易化に有効かどうかを検討する。
この発見に触発されて、我々は、もっともらしいマルチホップ推論連鎖を生成することで、挑戦的なマルチホップ推論ベンチマークを提案する。
その結果, マルチホップ推論の性能はF1スコアの45%まで低下していることがわかった。
論文 参考訳(メタデータ) (2024-09-08T19:22:58Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Generalization v.s. Memorization: Tracing Language Models' Capabilities Back to Pretraining Data [76.90128359866462]
大規模言語モデル(LLM)は、実際に目に見えないタスクに一般化するか、大量の事前学習データを記憶することに依存するかという議論を引き起こしている。
本稿では,LLMの出力確率と事前学習データ頻度との相関を計測する,メモリ化,分散メモリ化という拡張された概念を導入する。
本研究は, より単純で知識集約的なタスクにおいて, 暗記がより大きな役割を果たすことを示した。
論文 参考訳(メタデータ) (2024-07-20T21:24:40Z) - Understanding Information Storage and Transfer in Multi-modal Large Language Models [51.20840103605018]
本研究では,マルチモーダル大規模言語モデルを用いて,現実的な視覚的質問応答タスクにおいて情報処理を行う方法について検討する。
鍵となる発見は、これらのMLLMが情報記憶のためにずっと古いレイヤの自己注意ブロックに依存していることを示している。
モデル編集アルゴリズムであるMultEditを導入し、誤りを訂正し、MLLMに新しいロングテール情報を挿入する。
論文 参考訳(メタデータ) (2024-06-06T16:35:36Z) - Memory Injections: Correcting Multi-Hop Reasoning Failures during
Inference in Transformer-Based Language Models [4.343604069244352]
そこで本研究では,アテンションヘッドにターゲットメモリを注入することで,マルチホップ推論失敗をピンポイントし,修正する手法を提案する。
キーアテンション層への単純で効率的で目標とするメモリインジェクションは、マルチホップタスクにおいて、所望の次のトークンの確率を最大424%向上させることができることを示す。
論文 参考訳(メタデータ) (2023-09-11T16:39:30Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Locate Then Ask: Interpretable Stepwise Reasoning for Multi-hop Question
Answering [71.49131159045811]
マルチホップ推論では、複雑な質問に答えるために複数の文書を集約する必要がある。
既存の方法は通常、マルチホップの質問を単純なシングルホップの質問に分解する。
そこで本研究では,単一ホップ支援文識別と単一ホップ質問生成の両方を組み込む,解釈可能な段階的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2022-08-22T13:24:25Z) - Few-Shot Stance Detection via Target-Aware Prompt Distillation [48.40269795901453]
本論文は,知識ベースや少人数の学習者を対象とした事前学習型言語モデル(PLM)の可能性に着想を得たものである。
PLMは、ターゲットに対して重要なコンテキスト情報を提供し、プロンプトを介して数発の学習を可能にする。
姿勢検出タスクにおいて,対象が重要な役割を担っていることを考慮し,目標認識プロンプトを設計し,新しい言語化手法を提案する。
論文 参考訳(メタデータ) (2022-06-27T12:04:14Z) - Focus-Constrained Attention Mechanism for CVAE-based Response Generation [27.701626908931267]
潜伏変数は、談話レベルの情報をキャプチャし、ターゲット応答の通知性を促進する。
粗粒度談話レベル情報を細粒度語レベル情報に変換する。
我々のモデルは、いくつかの最先端モデルと比較して、より多様で情報的な応答を生成することができる。
論文 参考訳(メタデータ) (2020-09-25T09:38:59Z) - Scalable Multi-Hop Relational Reasoning for Knowledge-Aware Question
Answering [35.40919477319811]
本稿では,事前学習された言語モデルにマルチホップ関係推論モジュールを組み込む新しい知識認識手法を提案する。
外部知識グラフから抽出したサブグラフに対して、マルチホップ、マルチリレーショナル推論を行う。
パスベースの推論手法とグラフニューラルネットワークを統合して、より優れた解釈性とスケーラビリティを実現する。
論文 参考訳(メタデータ) (2020-05-01T23:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。