論文の概要: From XAI to Stories: A Factorial Study of LLM-Generated Explanation Quality
- arxiv url: http://arxiv.org/abs/2601.02224v1
- Date: Mon, 05 Jan 2026 15:52:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:23.254219
- Title: From XAI to Stories: A Factorial Study of LLM-Generated Explanation Quality
- Title(参考訳): XAIからストーリーへ:LLM生成説明品質の要因分析
- Authors: Fabian Lukassen, Jan Herrmann, Christoph Weisser, Benjamin Saefken, Thomas Kneib,
- Abstract要約: 本稿では,予測モデルの選択,XAI法,Large Language Models (LLMs) の選択,および自然言語の説明にどう影響するかを検討する。
以上の結果から,XAIは非XAIベースラインよりも小さな改善しか提供せず,専門家の聴衆にのみ提供できることが示唆された。
- 参考スコア(独自算出の注目度): 2.0264662862101255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Explainable AI (XAI) methods like SHAP and LIME produce numerical feature attributions that remain inaccessible to non expert users. Prior work has shown that Large Language Models (LLMs) can transform these outputs into natural language explanations (NLEs), but it remains unclear which factors contribute to high-quality explanations. We present a systematic factorial study investigating how Forecasting model choice, XAI method, LLM selection, and prompting strategy affect NLE quality. Our design spans four models (XGBoost (XGB), Random Forest (RF), Multilayer Perceptron (MLP), and SARIMAX - comparing black-box Machine-Learning (ML) against classical time-series approaches), three XAI conditions (SHAP, LIME, and a no-XAI baseline), three LLMs (GPT-4o, Llama-3-8B, DeepSeek-R1), and eight prompting strategies. Using G-Eval, an LLM-as-a-judge evaluation method, with dual LLM judges and four evaluation criteria, we evaluate 660 explanations for time-series forecasting. Our results suggest that: (1) XAI provides only small improvements over no-XAI baselines, and only for expert audiences; (2) LLM choice dominates all other factors, with DeepSeek-R1 outperforming GPT-4o and Llama-3; (3) we observe an interpretability paradox: in our setting, SARIMAX yielded lower NLE quality than ML models despite higher prediction accuracy; (4) zero-shot prompting is competitive with self-consistency at 7-times lower cost; and (5) chain-of-thought hurts rather than helps.
- Abstract(参考訳): SHAPやLIMEのような説明可能なAI(XAI)メソッドは、専門家でないユーザにはアクセスできない数値的な特徴属性を生成する。
これまでの研究で、Large Language Models (LLMs) はこれらのアウトプットを自然言語の説明(NLEs)に変換することができたが、どの要因が高品質な説明に寄与しているかは定かではない。
我々は,予測モデル選択,XAI法,LLM選択,および促進戦略がNLE品質に与える影響について,系統的要因分析を行った。
我々の設計は、XGBoost(XGB)、Random Forest(RF)、Multilayer Perceptron(MLP)、SARIMAX(ML)の4つのモデル、XAI条件(SHAP、LIME、no-XAIベースライン)、3つのLLM(GPT-4o、Llama-3-8B、DeepSeek-R1)、8つのプロンプト戦略に及びます。
2つのLCM判定基準と4つの評価基準を備えたLCM-as-a-judge評価法であるG-Evalを用いて,時系列予測のための660の説明を行った。
以上の結果から,(1) XAIは非XAIベースラインに対する小さな改善と,(2) LLMの選択が,GPT-4oとLlama-3より優れていること,(3) 解釈可能性パラドックスを観察すること,(3) 予測精度が高いにもかかわらず,SARIMAXはMLモデルよりもNLE品質が低いこと,(4) ゼロショットプロンプトは7倍のコストで自己整合性と競合すること,(5) チェーン・オブ・シンキングは助けよりも苦しむこと,などが示唆された。
関連論文リスト
- Scoring, Reasoning, and Selecting the Best! Ensembling Large Language Models via a Peer-Review Process [58.265053900416895]
LLM-PeerReviewは、ピアレビューに触発された新しいフレームワークの上に構築されている。
スコアリングには、新たなLCM-as-a-Judgeテクニックを使用します。
推論にはグラフィカルモデルに基づく真理推論アルゴリズムを適用する。
最後に、最高スコア応答をベストアンサンブル出力として選択する。
論文 参考訳(メタデータ) (2025-12-29T05:25:49Z) - Beyond Scale: Small Language Models are Comparable to GPT-4 in Mental Health Understanding [12.703061322251093]
Small Language Models (SLM) は、Large Language Models (LLM) のプライバシ保護代替品である。
本稿では,現在SLMのメンタルヘルス理解能力について,分類タスクの体系的評価を通じて検討する。
我々の研究は、メンタルヘルス理解におけるSLMの可能性を強調し、センシティブなオンラインテキストデータを分析するための効果的なプライバシー保護ツールであることを示す。
論文 参考訳(メタデータ) (2025-07-09T02:40:02Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - UBench: Benchmarking Uncertainty in Large Language Models with Multiple Choice Questions [10.28688988951815]
大規模言語モデル(LLM)の不確実性を評価するための新しいベンチマークであるUBenchを紹介する。
他のベンチマークとは異なり、UBenchは信頼区間に基づいている。知識、言語、理解、推論能力にまたがる11,978の多重選択質問を含んでいる。
1) 信頼性区間に基づく手法は不確実性定量化に極めて有効である; 2) 不確実性に関して、優れたオープンソースモデルは、クローズドソースモデルと競合する性能を示す; 3) CoT と RP は、モデル信頼性を改善するための潜在的方法を示し、温度変化の影響は普遍的な規則に従わない。
論文 参考訳(メタデータ) (2024-06-18T16:50:38Z) - Language Models can Evaluate Themselves via Probability Discrepancy [38.54454263880133]
様々な大規模言語モデル(LLM)の有効性を評価するための自己評価手法ProbDiffを提案する。
テスト中のLSMを、初期応答と修正バージョンの間の確率差を計算するために独自に利用する。
以上の結果から, ProbDiff は GPT-4 に基づく評価結果と同等の結果を得た。
論文 参考訳(メタデータ) (2024-05-17T03:50:28Z) - Using Natural Language Explanations to Improve Robustness of In-context Learning [35.18010811754959]
大規模言語モデル(LLM)は、文脈内学習(ICL)を通じて多くのタスクを抽出できる
自然言語説明法(NLE)によるICLの強化は,敵対的データセット上でのLLMの堅牢性を向上させるかを検討する。
論文 参考訳(メタデータ) (2023-11-13T18:49:13Z) - Beyond Task Performance: Evaluating and Reducing the Flaws of Large
Multimodal Models with In-Context Learning [105.77733287326308]
我々は,3Bから80Bパラメータスケールまでの最近のオープンソースLMMを,幻覚,禁忌,構成性,説明可能性,指示に従う5つの異なる軸で評価した。
トレーニングフリーなインコンテキスト学習(ICL)をソリューションとして検討し、それがこれらの制限に与える影響について検討する。
ICL研究に基づき、ICLをさらに推し進め、Multitask-ICL、Chain-of-Hindsight-ICL、Self-Correcting-ICLといった新しい多モードICL変種を提案する。
論文 参考訳(メタデータ) (2023-10-01T12:02:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。