論文の概要: Probing for Knowledge Attribution in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.22787v1
- Date: Thu, 26 Feb 2026 09:21:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.619624
- Title: Probing for Knowledge Attribution in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識属性の探索
- Authors: Ivo Brink, Alexander Boer, Dennis Ulmer,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば流動的だが根拠のないクレームや幻覚を生成する。
適切な緩和は、モデルの答えがプロンプトまたは内部の重みに基づいているかどうかを知ることに依存する。
モデル隠れ表現に基づいて訓練された単純な線形分類器であるプローブは、帰納的帰属を確実に予測できることを示す。
- 参考スコア(独自算出の注目度): 45.47366023067617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) often generate fluent but unfounded claims, or hallucinations, which fall into two types: (i) faithfulness violations - misusing user context - and (ii) factuality violations - errors from internal knowledge. Proper mitigation depends on knowing whether a model's answer is based on the prompt or its internal weights. This work focuses on the problem of contributive attribution: identifying the dominant knowledge source behind each output. We show that a probe, a simple linear classifier trained on model hidden representations, can reliably predict contributive attribution. For its training, we introduce AttriWiki, a self-supervised data pipeline that prompts models to recall withheld entities from memory or read them from context, generating labelled examples automatically. Probes trained on AttriWiki data reveal a strong attribution signal, achieving up to 0.96 Macro-F1 on Llama-3.1-8B, Mistral-7B, and Qwen-7B, transferring to out-of-domain benchmarks (SQuAD, WebQuestions) with 0.94-0.99 Macro-F1 without retraining. Attribution mismatches raise error rates by up to 70%, demonstrating a direct link between knowledge source confusion and unfaithful answers. Yet, models may still respond incorrectly even when attribution is correct, highlighting the need for broader detection frameworks.
- Abstract(参考訳): 大規模言語モデル(LLMs)は、しばしば流動的だが根拠のないクレームや幻覚を生成し、それらは2つのタイプに分類される。
一 信条違反、ユーザコンテキストの誤用、及び
(二)事実性違反-内部知識の誤り。
適切な緩和は、モデルの答えがプロンプトまたは内部の重みに基づいているかどうかを知ることに依存する。
この研究は、貢献的帰属(contributive attribution)の問題に焦点を当て、それぞれのアウトプットの背後にある支配的な知識源を特定する。
モデル隠れ表現に基づいて訓練された単純な線形分類器であるプローブは、帰納的帰属を確実に予測できることを示す。
トレーニングのために、AttriWikiという自己教師付きデータパイプラインを導入しました。これは、保持されていないエンティティをメモリからリコールしたり、コンテキストから読み取ったり、ラベル付きサンプルを自動的に生成するモデルを促すものです。
AttriWikiのデータでトレーニングされたプローブは、Llama-3.1-8B、Mistral-7B、Qwen-7Bで最大0.96 Macro-F1を達成し、再トレーニングなしで0.94-0.99 Macro-F1で外部ベンチマーク(SQuAD、WebQuestions)に転送する強い属性信号を示す。
帰属ミスマッチはエラー率を最大70%向上させ、知識源の混乱と不誠実な答えの直接的な関連を示す。
しかし、アトリビューションが正しい場合でもモデルが正しく応答しない可能性があるため、より広範な検出フレームワークの必要性が浮き彫りになる。
関連論文リスト
- LLM Microscope: What Model Internals Reveal About Answer Correctness and Context Utilization [9.410181019585822]
我々は、モデル出力の正しさを予測できるかどうかを確認するために、解釈可能性法を運用する。
私たちは正しい、間違った、無関係なコンテキストを考え、それらを区別するためのメトリクスを導入します。
モデル内部のメトリクスは、正しいコンテキストと不正確なコンテキストを区別する基準線を著しく上回る。
論文 参考訳(メタデータ) (2025-10-05T03:14:05Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Eliciting Latent Knowledge from Quirky Language Models [1.8035046415192353]
潜在知識の排除は、世界の本当の状態を確実に追跡する能力のあるニューラルネットワークのアクティベーションのパターンを見つけることを目的としている。
12のデータセットと、質問に答える際の体系的なエラーを微調整した「奇抜な」言語モデル(LM)スイートを導入します。
特に中層では、線形プローブは通常、LMが出力するものとは無関係に、LMの知識を報告する。
論文 参考訳(メタデータ) (2023-12-02T05:47:22Z) - R-Tuning: Instructing Large Language Models to Say `I Don't Know' [66.11375475253007]
大きな言語モデル(LLM)は、優れたパフォーマンスで多くのドメインに革命をもたらしたが、それでもその課題に直面している。
事前の指導チューニング方法は、モデルが知識を知っているかどうかに関わらず、モデルに文章を完成させるよう強制する。
我々はRefusal-Aware Instruction Tuning (R-Tuning)と呼ばれる新しいアプローチを提案する。
実験の結果、R-Tuningは、既知の質問に答えたり、未知の質問に答えるのを控えるモデルの能力を効果的に改善することを示した。
論文 参考訳(メタデータ) (2023-11-16T08:45:44Z) - Physics of Language Models: Part 3.1, Knowledge Storage and Extraction [51.68385617116854]
大規模言語モデル(LLM)は膨大な量の世界の知識を格納することができ、しばしば質問応答によって抽出できる。
モデルが知識を抽出する能力と,トレーニングデータの多様な多様性尺度との間には,強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-09-25T17:37:20Z) - Mitigating False-Negative Contexts in Multi-document QuestionAnswering
with Retrieval Marginalization [29.797379277423143]
応答不能なクエリを適切に処理するset-valued検索の新しいパラメータ化を開発している。
トレーニング中にこの集合を限界化することで、モデルが注釈付き支持証拠の偽陰性を緩和できることを示す。
IIRCでは,代替文脈の余分化による連成モデリングによりモデル性能が5.5F1ポイント向上し,50.6F1の新たな最先端性能が得られることを示す。
論文 参考訳(メタデータ) (2021-03-22T23:44:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。