論文の概要: A Unified Framework with Novel Metrics for Evaluating the Effectiveness of XAI Techniques in LLMs
- arxiv url: http://arxiv.org/abs/2503.05050v1
- Date: Thu, 06 Mar 2025 23:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-10 12:22:27.996598
- Title: A Unified Framework with Novel Metrics for Evaluating the Effectiveness of XAI Techniques in LLMs
- Title(参考訳): LLMにおけるXAI技術の有効性評価のための新しいメトリクス統合フレームワーク
- Authors: Melkamu Abay Mersha, Mesay Gemeda Yigezu, Hassan shakil, Ali Al shami, Sanghyun Byun, Jugal Kalita,
- Abstract要約: 本研究では,5つのXAI技術の有効性を評価するための4つの新しい指標を用いた総合的評価フレームワークを提案する。
この評価は、人間関係協定(HA)、ロバスト性、一貫性、コントラストの4つの重要な指標に焦点を当てている。
- 参考スコア(独自算出の注目度): 5.112826806339356
- License:
- Abstract: The increasing complexity of LLMs presents significant challenges to their transparency and interpretability, necessitating the use of eXplainable AI (XAI) techniques to enhance trustworthiness and usability. This study introduces a comprehensive evaluation framework with four novel metrics for assessing the effectiveness of five XAI techniques across five LLMs and two downstream tasks. We apply this framework to evaluate several XAI techniques LIME, SHAP, Integrated Gradients, Layer-wise Relevance Propagation (LRP), and Attention Mechanism Visualization (AMV) using the IMDB Movie Reviews and Tweet Sentiment Extraction datasets. The evaluation focuses on four key metrics: Human-reasoning Agreement (HA), Robustness, Consistency, and Contrastivity. Our results show that LIME consistently achieves high scores across multiple LLMs and evaluation metrics, while AMV demonstrates superior Robustness and near-perfect Consistency. LRP excels in Contrastivity, particularly with more complex models. Our findings provide valuable insights into the strengths and limitations of different XAI methods, offering guidance for developing and selecting appropriate XAI techniques for LLMs.
- Abstract(参考訳): LLMの複雑さの増大は、その透明性と解釈可能性に大きな課題をもたらし、信頼性とユーザビリティを高めるためにeXplainable AI(XAI)技術を使用する必要がある。
本研究では,5つのLLMと2つの下流タスクにまたがる5つのXAI手法の有効性を評価するための4つの新しい指標を用いた総合的評価フレームワークを提案する。
本稿では,IMDB Movie Reviews と Tweet Sentiment extract data を用いて,LIME,SHAP,Integrated Gradients,Layer-wise Relevance Propagation (LRP),Attention Mechanism Visualization (AMV) などのXAI手法の評価を行う。
この評価は、人間関係協定(HA)、ロバスト性、一貫性、コントラストの4つの重要な指標に焦点を当てている。
AMVはロバスト性, ほぼ完全性を示したが, LIME は複数の LLM と評価指標で常に高いスコアを達成している。
LRPはコントラスト性、特により複雑なモデルで優れている。
本研究は, 異なるXAI手法の強度と限界に関する貴重な知見を提供し, LLMの適切なXAI手法の開発と選択のためのガイダンスを提供する。
関連論文リスト
- Evaluating the Effectiveness of XAI Techniques for Encoder-Based Language Models [6.349503549199403]
本研究は,人間関係協定(HA),ロバスト性,一貫性,コントラスト性という,4つの主要な指標を用いた一般的な評価枠組みを提案する。
5種類のXAIカテゴリから6つの説明可能性手法の有効性を評価した。
その結果,モデルの単純化に基づくXAI法(LIME)は,複数の指標やモデルに対して一貫して優れていた。
論文 参考訳(メタデータ) (2025-01-26T03:08:34Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - EVOLvE: Evaluating and Optimizing LLMs For Exploration [76.66831821738927]
大規模言語モデル(LLM)は、不確実性の下で最適な意思決定を必要とするシナリオにおいて、未調査のままである。
多くのアプリケーションに関係のあるステートレス強化学習環境である,帯域幅を最適に決定できる LLM の (in) 能力の測定を行う。
最適な探索アルゴリズムの存在を動機として,このアルゴリズム知識をLLMに統合する効率的な方法を提案する。
論文 参考訳(メタデータ) (2024-10-08T17:54:03Z) - Polymath: A Challenging Multi-modal Mathematical Reasoning Benchmark [53.61633384281524]
PolyMATHはMLLMの認知的推論能力を評価するためのベンチマークである。
PolyMATHで最高のスコアは41%、36%、27%で、それぞれClaude-3.5 Sonnet、GPT-4o、Gemini-1.5 Proが獲得した。
さらにきめ細かい誤差解析により、これらのモデルは空間関係を理解し、引き出された高レベルの推論を行うのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-10-06T20:35:41Z) - RUPBench: Benchmarking Reasoning Under Perturbations for Robustness Evaluation in Large Language Models [12.112914393948415]
RUPBenchは,多種多様な推論タスクにわたる大規模言語モデル(LLM)を評価するために設計されたベンチマークである。
我々のベンチマークには15の推論データセットが組み込まれており、コモンセンス、算術、論理、知識集約推論に分類されている。
GPT-4o, Llama3, Phi-3, Gemmaといった最先端のLCMの原文および摂動データセットの性能を調べることにより, その堅牢性およびエラーパターンを詳細に解析する。
論文 参考訳(メタデータ) (2024-06-16T17:26:44Z) - Enhancing Trust in LLMs: Algorithms for Comparing and Interpreting LLMs [1.0878040851638]
本稿では,大規模言語モデル(LLM)の信頼性と理解を高めるための評価手法について検討する。
主な評価指標は、パープレキシティ測定、NLPメトリクス(BLEU, ROUGE, METEOR, BERTScore, GLEU, Word Error Rate, character Error Rate), Zero-Shot and Few-Shot Learning Performance, Transfer Learning Evaluation, Adversarial Testing, Fairness and Bias Evaluationである。
論文 参考訳(メタデータ) (2024-06-04T03:54:53Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Usable XAI: 10 Strategies Towards Exploiting Explainability in the LLM Era [77.174117675196]
XAIはLarge Language Models (LLM)に拡張されている
本稿では,XAIがLLMやAIシステムにどのようなメリットをもたらすかを分析する。
10の戦略を導入し、それぞれに重要なテクニックを導入し、関連する課題について議論します。
論文 参考訳(メタデータ) (2024-03-13T20:25:27Z) - METAL: Metamorphic Testing Framework for Analyzing Large-Language Model
Qualities [4.493507573183107]
大言語モデル(LLM)は自然言語データ処理のパラダイムをシフトさせた。
近年,LLMの品質属性(QA)は,逆入力テキストを生成することで検証されている。
本稿では,これらの問題に対処するメタモルフィック・テスト・フォー・アナライズ・LLM(METAL)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-11T01:29:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。