論文の概要: Quality Without Usefulness: LLM-Generated XAI Narratives as Trust Heuristics Rather Than Decision Aids
- arxiv url: http://arxiv.org/abs/2605.26770v1
- Date: Tue, 26 May 2026 09:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.795762
- Title: Quality Without Usefulness: LLM-Generated XAI Narratives as Trust Heuristics Rather Than Decision Aids
- Title(参考訳): 役に立たない品質:意思決定支援よりも信頼的ヒューリスティックスとしてのLLM生成XAIナラティブ
- Authors: Fabian Lukassen, Jan Herrmann, Christoph Weisser, Alexander Silbersdorff, Benjamin Saefken, Thomas Kneib,
- Abstract要約: 自然言語説明法 (NLE) は, 自己報告された信頼度を増大させながら, 5つのタスクのいずれかのタスク精度を向上しないことがわかった。
プラズビック制御は、この自信がコンテンツではなくテキストの存在によって引き起こされることを示している。
これらの知見をQOL(Quality-Usefulness Gap)として特徴付け、XAI-to-NLEパイプラインの評価は、テキスト品質の指標を超えて、ダウンストリームタスクのパフォーマンスにまで拡張する必要がある、と論じる。
- 参考スコア(独自算出の注目度): 37.0012941466157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior work shows that Large Language Models (LLMs) can transform Explainable AI (XAI) outputs into Natural Language Explanations (NLEs) that score highly on quality metrics such as plausibility, coherence, and comprehensibility. But does explanation quality translate to practical usefulness? We investigate this question in a time-series energy forecasting domain through five controlled experiments (2,730 judgments across 60 test instances), each operationalising a distinct facet of usefulness studied in the XAI literature. Holding NLE quality constant at the high levels established by a prior factorial study, we find that NLEs do not improve task accuracy on any of the five tasks, while inflating self-reported confidence. A placebic control shows that this confidence boost is driven by text presence rather than content. In an out-of-distribution detection task, NLEs reduce the LLM judge's ability to flag unreliable predictions, providing false reassurance that masks model failure. We characterise these findings as the Quality-Usefulness Gap and argue that evaluation of the XAI-to-NLE pipeline must extend beyond text-quality metrics to downstream task performance.
- Abstract(参考訳): 以前の研究によると、LLM(Large Language Models)は、説明可能なAI(XAI)出力を自然言語説明(NLE)に変換することができる。
しかし、説明の質は実用性を意味するのか?
我々は, 時系列エネルギー予測領域において, 5つの制御実験(2,730件, 60件の試験事例にわたる判定)を通して, それぞれが, XAI文献で研究されている有益性の異なる側面を運用することを通して, この問題を考察した。
その結果,NLEは5つのタスクのタスク精度を向上せず,自己申告された自信を膨らませていることがわかった。
プラズビック制御は、この自信がコンテンツではなくテキストの存在によって引き起こされることを示している。
アウト・オブ・ディストリビューション検出タスクでは、NLEはLLM判事が信頼できない予測を通知する能力を減らす。
これらの知見をQOL(Quality-Usefulness Gap)として特徴付け、XAI-to-NLEパイプラインの評価は、テキスト品質の指標を超えて、ダウンストリームタスクのパフォーマンスにまで拡張する必要がある、と論じる。
関連論文リスト
- Can LLMs Detect Their Confabulations? Estimating Reliability in Uncertainty-Aware Language Models [24.72990207218907]
LLM(Large Language Models)は、畳み込み(confabulation)として知られる、流動的だが不正なコンテンツを生成する傾向にある。
本研究では、文脈内情報がモデル行動にどのように影響するか、LLMが信頼できない応答を識別できるかを検討する。
論文 参考訳(メタデータ) (2025-08-11T16:12:36Z) - TokUR: Token-Level Uncertainty Estimation for Large Language Model Reasoning [27.449948943467163]
token-level Uncertainty Estimation framework for Reasoning (TokUR)を提案する。
TokURは、大規模言語モデルにおいて、数学的推論における応答を自己評価し、自己改善することを可能にする。
様々な難易度を持つ数学的推論データセットの実験により、TokURは答えの正しさとモデルロバストネスと強い相関を示すことが示された。
論文 参考訳(メタデータ) (2025-05-16T22:47:32Z) - FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [24.39952838336609]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのフレームワークである。
FLUKEの実用性は、6つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Shifting Attention to Relevance: Towards the Predictive Uncertainty Quantification of Free-Form Large Language Models [27.491408293411734]
大規模言語モデル(LLM)は、言語生成と命令の後に有望な結果を示すが、しばしば「ハロシン化」を示す。
我々の研究は単純な冗長性を導入している: 自動回帰テキストのすべてのトークンが、基礎となる意味を等しく表しているわけではない。
論文 参考訳(メタデータ) (2023-07-03T22:17:16Z) - Revisiting Out-of-distribution Robustness in NLP: Benchmark, Analysis,
and LLMs Evaluations [111.88727295707454]
本稿では,NLP分野におけるアウト・オブ・ディストリビューション(OOD)のロバスト性に関する研究を再検討する。
本稿では, 明確な分化と分散の困難さを保証するための, ベンチマーク構築プロトコルを提案する。
我々は,OODロバスト性の分析と評価のための事前学習言語モデルの実験を行った。
論文 参考訳(メタデータ) (2023-06-07T17:47:03Z) - Competency-Aware Neural Machine Translation: Can Machine Translation
Know its Own Translation Quality? [61.866103154161884]
ニューラルマシン翻訳(NMT)は、意識せずに起こる失敗に対してしばしば批判される。
本稿では,従来のNMTを自己推定器で拡張することで,新たな能力認識型NMTを提案する。
提案手法は品質評価において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2022-11-25T02:39:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。