論文の概要: How good is my story? Towards quantitative metrics for evaluating LLM-generated XAI narratives
- arxiv url: http://arxiv.org/abs/2412.10220v1
- Date: Fri, 13 Dec 2024 15:45:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-16 15:04:10.925590
- Title: How good is my story? Towards quantitative metrics for evaluating LLM-generated XAI narratives
- Title(参考訳): 私の物語はどんなに良いか? LLM生成したXAI物語の定量的評価に向けて
- Authors: Timour Ichmoukhamedov, James Hinns, David Martens,
- Abstract要約: XAIにおけるLLMの急速な応用は、定量的な説明をユーザフレンドリーな物語に変換することである。
LLM生成の物語を評価するためのフレームワークを提案し,いくつかの自動メトリクスを探索する。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: A rapidly developing application of LLMs in XAI is to convert quantitative explanations such as SHAP into user-friendly narratives to explain the decisions made by smaller prediction models. Evaluating the narratives without relying on human preference studies or surveys is becoming increasingly important in this field. In this work we propose a framework and explore several automated metrics to evaluate LLM-generated narratives for explanations of tabular classification tasks. We apply our approach to compare several state-of-the-art LLMs across different datasets and prompt types. As a demonstration of their utility, these metrics allow us to identify new challenges related to LLM hallucinations for XAI narratives.
- Abstract(参考訳): XAIにおけるLLMの急速な応用は、SHAPなどの量的説明をユーザフレンドリーな物語に変換して、より小さな予測モデルによる決定を説明することである。
この分野では、人間の嗜好や調査に頼らずに物語を評価することがますます重要になっている。
本研究では,表層分類タスクの説明のために,LLM生成の物語を評価するためのフレームワークを提案し,いくつかの自動メトリクスを探索する。
提案手法を適用して,異なるデータセットとプロンプトタイプ間で,最先端のLLMを比較した。
これらの指標を用いて,XAI 物語における LLM の幻覚に関する新たな課題を特定することができる。
関連論文リスト
- From Selection to Generation: A Survey of LLM-based Active Learning [153.8110509961261]
大きな言語モデル(LLM)は、全く新しいデータインスタンスを生成し、よりコスト効率の良いアノテーションを提供するために使われています。
本調査は,LSMに基づくAL手法の直感的な理解を目指して,研究者や実践者の最新のリソースとして機能することを目的としている。
論文 参考訳(メタデータ) (2025-02-17T12:58:17Z) - Explingo: Explaining AI Predictions using Large Language Models [47.21393184176602]
LLM(Large Language Models)は、説明を自然なコミュニケーションと整合する人間可読な物語形式に変換することができる。
ナレーターはMLの説明を取り入れ、それらを自然言語の説明に変換する。
グレーダーはこれらの物語を、正確性、完全性、流用性、簡潔さを含む一連の指標で評価する。
この研究の結果はオープンソースツールに統合され、さらなるアプリケーションで物語の説明が利用できるようになった。
論文 参考訳(メタデータ) (2024-12-06T16:01:30Z) - LLMs for XAI: Future Directions for Explaining Explanations [50.87311607612179]
既存のXAIアルゴリズムを用いて計算した説明の精細化に着目する。
最初の実験とユーザスタディは、LLMがXAIの解釈可能性とユーザビリティを高めるための有望な方法を提供することを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:17:47Z) - RepEval: Effective Text Evaluation with LLM Representation [55.26340302485898]
RepEvalは、評価のためにLarge Language Models(LLM)表現の投影を利用するメトリクスである。
我々の研究は、LLM表現に埋め込まれたテキスト品質に関する情報の豊かさを強調し、新しいメトリクスの開発のための洞察を提供する。
論文 参考訳(メタデータ) (2024-04-30T13:50:55Z) - Unveiling LLM Evaluation Focused on Metrics: Challenges and Solutions [2.5179515260542544]
大規模言語モデル (LLM) は、テキスト生成、質問応答、テキスト要約における汎用的な応用のために、学界や業界全体で大きな注目を集めている。
パフォーマンスを定量化するためには、既存のメトリクスを包括的に把握することが重要です。
本稿では,メトリクスの観点からLLM評価を包括的に調査し,現在使用されているメトリクスの選択と解釈について考察する。
論文 参考訳(メタデータ) (2024-04-14T03:54:00Z) - Benchmarking LLMs on the Semantic Overlap Summarization Task [9.656095701778975]
本稿では,セマンティック・オーバーラップ・サマリゼーション(SOS)タスクにおいて,Large Language Models (LLM) を包括的に評価する。
本稿では, ROUGE, BERTscore, SEM-F1$などの定評ある指標を, 2種類の代替物語のデータセット上で報告する。
論文 参考訳(メタデータ) (2024-02-26T20:33:50Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - Large Language Models: A Survey [69.72787936480394]
大規模言語モデル(LLM)は、広範囲の自然言語タスクにおける強力なパフォーマンスのために、多くの注目を集めている。
LLMの汎用言語理解と生成能力は、膨大なテキストデータに基づいて数十億のモデルのパラメータを訓練することで得られる。
論文 参考訳(メタデータ) (2024-02-09T05:37:09Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。