論文の概要: On Mechanistic Circuits for Extractive Question-Answering
- arxiv url: http://arxiv.org/abs/2502.08059v1
- Date: Wed, 12 Feb 2025 01:54:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-13 13:50:04.549587
- Title: On Mechanistic Circuits for Extractive Question-Answering
- Title(参考訳): 抽出質問応答のための機械回路について
- Authors: Samyadeep Basu, Vlad Morariu, Zichao Wang, Ryan Rossi, Cherry Zhao, Soheil Feizi, Varun Manjunatha,
- Abstract要約: 大規模言語モデルは、文書の処理や質問応答を容易にするためにますます使われている。
本稿では,この実世界の言語モデリングタスクのためのメカニスティック回路を抽出する。
我々は,データ属性やコンテキスト情報といった下流アプリケーションに対する回路の潜在的な利点を示す。
- 参考スコア(独自算出の注目度): 47.167393805165325
- License:
- Abstract: Large language models are increasingly used to process documents and facilitate question-answering on them. In our paper, we extract mechanistic circuits for this real-world language modeling task: context-augmented language modeling for extractive question-answering (QA) tasks and understand the potential benefits of circuits towards downstream applications such as data attribution to context information. We extract circuits as a function of internal model components (e.g., attention heads, MLPs) using causal mediation analysis techniques. Leveraging the extracted circuits, we first understand the interplay between the model's usage of parametric memory and retrieved context towards a better mechanistic understanding of context-augmented language models. We then identify a small set of attention heads in our circuit which performs reliable data attribution by default, thereby obtaining attribution for free in just the model's forward pass. Using this insight, we then introduce ATTNATTRIB, a fast data attribution algorithm which obtains state-of-the-art attribution results across various extractive QA benchmarks. Finally, we show the possibility to steer the language model towards answering from the context, instead of the parametric memory by using the attribution from ATTNATTRIB as an additional signal during the forward pass. Beyond mechanistic understanding, our paper provides tangible applications of circuits in the form of reliable data attribution and model steering.
- Abstract(参考訳): 大規模言語モデルは、文書の処理や質問応答を容易にするためにますます使われている。
本稿では,この実世界の言語モデリングタスクのためのメカニスティック回路を抽出し,文脈情報に対するデータ属性などの下流アプリケーションに対する回路の潜在的なメリットを理解する。
我々は、因果媒介分析技術を用いて、内部モデル成分(例えば、アテンションヘッド、MLP)の関数として回路を抽出する。
抽出回路を利用すると、まずパラメトリックメモリと検索コンテキストの相互作用を理解し、文脈拡張言語モデルの機械的理解を深める。
次に,回路内の小さなアテンションヘッドを同定し,信頼度の高いデータアトリビューションをデフォルトで実行し,モデル前方パスのみのアトリビューションを無償で取得する。
この知見を用いて,様々なQAベンチマークを用いて,最先端の属性結果を得る高速データ帰属アルゴリズムであるATTNATTRIBを導入する。
最後に,ATTNATTRIBの属性を前方通過時の付加信号として用いることで,パラメトリックメモリの代わりに,文脈からの応答に向けて言語モデルを操る可能性を示す。
メカニスティックな理解の他に、信頼性のあるデータ属性とモデルステアリングという形で回路の具体的な応用を提供する。
関連論文リスト
- Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。
ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。
提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文 参考訳(メタデータ) (2025-02-08T00:16:44Z) - LatentQA: Teaching LLMs to Decode Activations Into Natural Language [72.87064562349742]
自然言語におけるモデルアクティベーションに関するオープンな疑問に答えるタスクであるLatentQAを紹介する。
本稿では,アクティベーションと関連する質問応答ペアのデータセット上で,デコーダLLMを微調整するLatent Interpretation Tuning (LIT)を提案する。
我々のデコーダはまた、ステレオタイプ付き文のモデルのデバイアス化や世代ごとの感情制御など、モデルを制御するために使用する差別化可能な損失も規定している。
論文 参考訳(メタデータ) (2024-12-11T18:59:33Z) - Deciphering the Interplay of Parametric and Non-parametric Memory in Retrieval-augmented Language Models [5.274653527674298]
Retrieval-Augmented Generation (RAG)モデルは、応答を生成する前に情報を取得するように振舞う。
我々は、因果媒介分析と制御実験を用いて、内部表現が情報処理にどのように影響するかを調べる。
論文 参考訳(メタデータ) (2024-10-07T16:14:47Z) - From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries [6.382667978271587]
Retrieval Augmented Generation (RAG) は、あるユーザプロンプトに対する応答を増やすために、外部コンテキストを使って言語モデルを推論する能力を強化する。
このアプローチは、検索、質問/回答、チャットボットにおける言語モデルの様々な応用における実践的な応用により、人気が高まっている。
本稿では,RAGパイプラインを機械的に検討し,言語モデルがショートカットをとっており,パラメトリックメモリを最小限に頼りながら,文脈情報のみを活用することに強いバイアスを持つことを示す。
論文 参考訳(メタデータ) (2024-06-18T17:46:08Z) - Fine-tuning and aligning question answering models for complex
information extraction tasks [0.8392546351624164]
質問応答(QA)や通過検索モデルのような抽出言語モデルは、クエリ結果が適切なコンテキスト文書の境界内で見つかることを保証します。
既存のドイツ語のQAモデルを微調整することで,複雑な言語的特徴の抽出タスクをカスタマイズする性能が向上することを示す。
評価基準を再現するために,Levenshtein 距離,F1-Score,Exact Match,ROUGE-L の組合せを推定した。
論文 参考訳(メタデータ) (2023-09-26T10:02:21Z) - Zero-shot Composed Text-Image Retrieval [72.43790281036584]
合成画像検索(CIR)の問題点を考察する。
テキストや画像などのマルチモーダル情報を融合し、クエリにマッチする画像を正確に検索し、ユーザの表現能力を拡張できるモデルをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2023-06-12T17:56:01Z) - Language Models Implement Simple Word2Vec-style Vector Arithmetic [32.2976613483151]
言語モデル(LM)に対する主要な批判は、その調査性である。
本稿では,その大きさと複雑さにもかかわらず,LMは単純なベクトル演算方式を用いて,いくつかのリレーショナルタスクを解くことの証拠を提示する。
論文 参考訳(メタデータ) (2023-05-25T15:04:01Z) - A Mechanistic Interpretation of Arithmetic Reasoning in Language Models
using Causal Mediation Analysis [128.0532113800092]
算数問題に対するトランスフォーマーに基づくLMの機械的解釈を提案する。
これにより、算術に関連する情報がLMによってどのように処理されるかについての洞察が得られる。
論文 参考訳(メタデータ) (2023-05-24T11:43:47Z) - Leveraging Advantages of Interactive and Non-Interactive Models for
Vector-Based Cross-Lingual Information Retrieval [12.514666775853598]
対話型モデルと非対話型モデルの利点を活用する新しいフレームワークを提案する。
非対話型アーキテクチャ上でモデルを構築できる半対話型機構を導入するが、各文書を関連付けられた多言語クエリと共にエンコードする。
本手法は,計算効率を維持しながら検索精度を大幅に向上させる。
論文 参考訳(メタデータ) (2021-11-03T03:03:19Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。