論文の概要: Illocutionary Explanation Planning for Source-Faithful Explanations in Retrieval-Augmented Language Models
- arxiv url: http://arxiv.org/abs/2604.06211v1
- Date: Mon, 16 Mar 2026 11:10:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-12 18:41:08.641082
- Title: Illocutionary Explanation Planning for Source-Faithful Explanations in Retrieval-Augmented Language Models
- Title(参考訳): 検索・拡張言語モデルにおけるソース・ファイント・エクスプリーテーションのためのイリオシオナリー・エクスプリーテーション計画
- Authors: Francesco Sovrano, Alberto Bacchelli,
- Abstract要約: 我々は、説明の主張がどの程度に根拠づけられるかを、明示的な情報源として遡って調べる。
我々は、90のStack Overflow質問に対して、3つのプログラミング教科書で6つの大きな言語モデルをベンチマークした。
非検索拡張生成(RAG)モデルは0%, ベースラインRAGシステムは22-40%の低い正中性(22-40%)を示す。
- 参考スコア(独自算出の注目度): 6.517222960194991
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Natural language explanations produced by large language models (LLMs) are often persuasive, but not necessarily scrutable: users cannot easily verify whether the claims in an explanation are supported by evidence. In XAI, this motivates a focus on faithfulness and traceability, i.e., the extent to which an explanation's claims can be grounded in, and traced back to, an explicit source. We study these desiderata in retrieval-augmented generation (RAG) for programming education, where textbooks provide authoritative evidence. We benchmark six LLMs on 90 Stack Overflow questions grounded in three programming textbooks and quantify source faithfulness via source adherence metrics. We find that non Retrieval-Augmented Generation (RAG) models have median source adherence of 0%, while baseline RAG systems still exhibit low median adherence (22-40%, depending on the model). Motivated by Achinstein's illocutionary theory of explanation, we introduce illocutionary macro-planning as a descriptive design principle for source-faithful explanations and instantiate it with chain-of-illocution prompting (CoI), which expands a query into implicit explanatory questions that drive retrieval. Across models, CoI yields statistically significant gains (up to 63%) in source adherence, although absolute adherence remains moderate and the gains are weak or non-significant for some models. A user study with 165 retained participants (220 recruited) indicates that these gains do not harm satisfaction, relevance, or perceived correctness.
- Abstract(参考訳): 大規模言語モデル(LLM)が生成する自然言語の説明は、しばしば説得力があるが、必ずしも精査できるとは限らない。
XAIでは、これは忠実さとトレーサビリティ、すなわち説明の主張が根底にある程度に焦点をあて、明確な情報源へと遡る。
本研究では,これらのデシラタを検索強化世代(RAG)のプログラミング教育において研究し,教科書が権威的な証拠を提供する。
我々は、90のスタックオーバーフロー質問に対して、90のLCMを3つのプログラミング教科書で評価し、ソースアテンデンスメトリクスによるソース忠実度を定量化する。
一方, ベースラインRAGシステムは, モデルによっては22~40%の低い正中性(22~40%)を保っている。
筆者らは,Achinstein の論理的説明理論に触発され,情報源に忠実な説明のための記述的設計原理として,論理的マクロプランニングを導入し,クエリを暗黙的な説明的質問へと拡張し,検索を駆動するチェーン・オブ・イラクト・プロンプト(CoI)でインスタンス化する。
モデル全体では、CoIはソースの付着度において統計的に有意な利得(最大63%)を得るが、絶対的な付着度は適度であり、一部のモデルでは利得は弱いか重要でない。
165名の保持者(220名の採用)によるユーザスタディは、これらの利得が満足感、関連性、知覚の正しさを損なうものではないことを示唆している。
関連論文リスト
- Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval [60.25608870901428]
信頼性は、大規模言語モデル(LLM)上に構築されたエージェントAIシステムの中核研究課題である
本研究では,任意の自然言語クレームの検証に焦点をあて,検索なしで事実チェックを行うタスクを提案する。
論文 参考訳(メタデータ) (2026-03-05T18:42:51Z) - GRACE: Reinforcement Learning for Grounded Response and Abstention under Contextual Evidence [9.80421132842862]
Retrieval-Augmented Generation (RAG)は、外部知識を統合してLarge Language Models (LLM)を強化する
RAGは、明確な根拠のない正しい答えを提供することと、検索された文脈が不十分な場合に製造された応答を生成するという2つの重大な欠陥に感受性がある。
本稿では,両方の欠陥を同時に軽減する強化学習フレームワークGRACEを提案する。
論文 参考訳(メタデータ) (2026-01-08T02:47:33Z) - ReAG: Reasoning-Augmented Generation for Knowledge-based Visual Question Answering [54.72902502486611]
ReAG(Reasoning-Augmented Multimodal RAG)は、粗い部分ときめ細かい部分の検索と、無関係な通路をフィルタリングする批評家モデルを組み合わせた手法である。
ReAGは従来の手法よりも優れており、解答精度が向上し、検索された証拠に根ざした解釈可能な推論を提供する。
論文 参考訳(メタデータ) (2025-11-27T19:01:02Z) - Look As You Think: Unifying Reasoning and Visual Evidence Attribution for Verifiable Document RAG via Reinforcement Learning [55.232400251303794]
Look As You Think (LAT)は、モデルをトレーニングし、一貫した帰属性を持った検証可能な推論パスを生成するための強化学習フレームワークである。
LATはシングルイメージとマルチイメージの両方でバニラモデルを一貫して改善し、平均ゲインは8.23%、IoU@0.5では47.0%となる。
論文 参考訳(メタデータ) (2025-11-15T02:50:23Z) - Erasing Without Remembering: Implicit Knowledge Forgetting in Large Language Models [81.62767292169225]
我々は,その一般化に着目して,大規模言語モデルにおける知識の忘れについて検討する。
確率摂動に基づく新しいアンラーニングパラダイムであるPerMUを提案する。
TOFU、Harry Potter、ZsRE、WMDP、MUSEなど、さまざまなデータセットで実験が行われている。
論文 参考訳(メタデータ) (2025-02-27T11:03:33Z) - Towards Faithful Natural Language Explanations: A Study Using Activation Patching in Large Language Models [29.67884478799914]
大きな言語モデル(LLM)は、その答えを正当化するために説得力のある自然言語説明(NLE)を生成することができる。
近年,NLEの忠実度を測定するための様々な手法が提案されている。
これらのアプローチは、確立された忠実性の定義に従って包括的でも正しくも設計されていない、と我々は主張する。
論文 参考訳(メタデータ) (2024-10-18T03:45:42Z) - Evaluating Human Alignment and Model Faithfulness of LLM Rationale [66.75309523854476]
大規模言語モデル(LLM)が,その世代を理論的にどのように説明するかを考察する。
提案手法は帰属に基づく説明よりも「偽り」が少ないことを示す。
論文 参考訳(メタデータ) (2024-06-28T20:06:30Z) - Groundedness in Retrieval-augmented Long-form Generation: An Empirical Study [61.74571814707054]
検索した文書やモデルの事前学習データに生成されたすべての文が接地されているかどうかを評価する。
3つのデータセットと4つのモデルファミリーにまたがって、生成した文のかなりの部分が一貫してアングラウンド化されていることが明らかとなった。
以上の結果から,より大きなモデルではアウトプットをより効果的に基礎づける傾向にあるものの,正解のかなりの部分が幻覚によって損なわれていることが示唆された。
論文 参考訳(メタデータ) (2024-04-10T14:50:10Z) - Teaching language models to support answers with verified quotes [12.296242080730831]
オープンブック”QAモデルをトレーニングし、その一方で、その主張に関する具体的な証拠を引用しています。
2800億のパラメータモデルであるGopherCiteは、高品質なサポートエビデンスで回答を生成し、不確実な場合には回答を控えることができます。
論文 参考訳(メタデータ) (2022-03-21T17:26:29Z) - Interpretable Data-Based Explanations for Fairness Debugging [7.266116143672294]
Gopherは、バイアスや予期せぬモデルの振る舞いに関するコンパクトで解釈可能な、因果的な説明を生成するシステムである。
我々は,学習データに介入する程度を,サブセットの削除や更新によって定量化する因果責任の概念を導入し,バイアスを解消する。
この概念に基づいて、モデルバイアスを説明するトップkパターンを生成するための効率的なアプローチを開発する。
論文 参考訳(メタデータ) (2021-12-17T20:10:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。