論文の概要: Evaluating Input Feature Explanations through a Unified Diagnostic Evaluation Framework
- arxiv url: http://arxiv.org/abs/2406.15085v2
- Date: Fri, 07 Feb 2025 15:11:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:53:54.076684
- Title: Evaluating Input Feature Explanations through a Unified Diagnostic Evaluation Framework
- Title(参考訳): 統一診断評価フレームワークによる入力特徴説明の評価
- Authors: Jingyi Sun, Pepa Atanasova, Isabelle Augenstein,
- Abstract要約: 一般的な説明形式のひとつに、Shapley ValuesやIntegrated Gradientsといった重要な入力機能がある。
これらの説明型は単独でのみ研究されており、それぞれの適用性を判断することは困難である。
我々は、ハイライトと対話的な説明の自動化と直接比較を容易にする統一的なフレームワークを開発する。
- 参考スコア(独自算出の注目度): 44.5176896474762
- License:
- Abstract: Explaining the decision-making process of machine learning models is crucial for ensuring their reliability and transparency for end users. One popular explanation form highlights key input features, such as i) tokens (e.g., Shapley Values and Integrated Gradients), ii) interactions between tokens (e.g., Bivariate Shapley and Attention-based methods), or iii) interactions between spans of the input (e.g., Louvain Span Interactions). However, these explanation types have only been studied in isolation, making it difficult to judge their respective applicability. To bridge this gap, we develop a unified framework that facilitates an automated and direct comparison between highlight and interactive explanations comprised of four diagnostic properties. We conduct an extensive analysis across these three types of input feature explanations -- each utilizing three different explanation techniques -- across two datasets and two models, and reveal that each explanation has distinct strengths across the different diagnostic properties. Nevertheless, interactive span explanations outperform other types of input feature explanations across most diagnostic properties. Despite being relatively understudied, our analysis underscores the need for further research to improve methods generating these explanation types. Additionally, integrating them with other explanation types that perform better in certain characteristics could further enhance their overall effectiveness.
- Abstract(参考訳): マシンラーニングモデルの意思決定プロセスを説明することは、エンドユーザの信頼性と透明性を確保する上で重要です。
1つの一般的な説明形式は、例えば、重要な入力機能を強調します。
一 トークン(例えば、共有価値及び統合グラディエント)
二 トークン間の相互作用(例えば、二変量軸法及び注意に基づく方法)
三 入力の幅(例えば、ルービン・スパンの相互作用)間の相互作用
しかし、これらの説明型は単独でのみ研究されており、それぞれの適用性を判断することは困難である。
このギャップを埋めるため、我々は4つの診断特性からなるハイライトと対話的な説明の自動化と直接比較を容易にする統一的なフレームワークを開発した。
これら3種類の入力特徴説明(それぞれ2つのデータセットと2つのモデルにわたる3つの異なる説明手法)を広範囲に分析し、それぞれの説明が異なる診断特性に対して異なる強みを持つことを明らかにする。
それでも、対話的なスパン説明は、ほとんどの診断特性において、他のタイプの入力特徴説明よりも優れている。
我々の分析は、比較的過小評価されているにもかかわらず、これらの説明型を生成する方法を改善するためのさらなる研究の必要性を浮き彫りにしている。
さらに、特定の特性においてより良い性能を発揮する他の説明型と統合することで、全体的な効果をさらに高めることができる。
関連論文リスト
- Explaining Text Similarity in Transformer Models [52.571158418102584]
説明可能なAIの最近の進歩により、トランスフォーマーの説明の改善を活用することで、制限を緩和できるようになった。
両線形類似性モデルにおける2次説明の計算のために開発された拡張であるBiLRPを用いて、NLPモデルにおいてどの特徴相互作用が類似性を促進するかを調べる。
我々の発見は、異なる意味的類似性タスクやモデルに対するより深い理解に寄与し、新しい説明可能なAIメソッドが、どのようにして深い分析とコーパスレベルの洞察を可能にするかを強調した。
論文 参考訳(メタデータ) (2024-05-10T17:11:31Z) - Relational Local Explanations [11.679389861042]
我々は,入力変数間の関係解析に基づく,新しいモデルに依存しない,置換に基づく特徴帰属アルゴリズムを開発した。
機械学習のモデル決定とデータについて、より広範な洞察を得ることができます。
論文 参考訳(メタデータ) (2022-12-23T14:46:23Z) - Complementary Explanations for Effective In-Context Learning [77.83124315634386]
大規模言語モデル (LLM) は、説明のインプロンプトから学習する際、顕著な能力を示した。
この研究は、文脈内学習に説明が使用されるメカニズムをよりよく理解することを目的としている。
論文 参考訳(メタデータ) (2022-11-25T04:40:47Z) - Variational Distillation for Multi-View Learning [104.17551354374821]
我々は,多視点表現学習における2つの重要な特徴を利用するために,様々な情報ボトルネックを設計する。
厳密な理論的保証の下で,本手法は,観察とセマンティックラベルの内在的相関の把握を可能にする。
論文 参考訳(メタデータ) (2022-06-20T03:09:46Z) - Analogies and Feature Attributions for Model Agnostic Explanation of
Similarity Learners [29.63747822793279]
ブラックボックスの類似性学習者によって決定される入力のペア間の類似性を説明するための特徴属性を提供する手法を提案する。
ここでのゴールは、入力対と同じレベルの類似性を共有する様々な類似の例のペアを特定することである。
我々の類似目的関数は部分モジュラーであることを証明し、良質な類似関係の探索を効率化する。
論文 参考訳(メタデータ) (2022-02-02T17:28:56Z) - Diagnostics-Guided Explanation Generation [32.97930902104502]
説明は機械学習モデルの合理性に光を当て、推論プロセスにおける欠陥の特定に役立ちます。
文レベルの説明を生成するためにモデルを訓練する際、いくつかの診断特性を最適化する方法を示す。
論文 参考訳(メタデータ) (2021-09-08T16:27:52Z) - A Diagnostic Study of Explainability Techniques for Text Classification [52.879658637466605]
既存の説明可能性技術を評価するための診断特性のリストを作成する。
そこで本研究では, モデルの性能と有理性との整合性の関係を明らかにするために, 説明可能性手法によって割り当てられた有理性スコアと有理性入力領域の人間のアノテーションを比較した。
論文 参考訳(メタデータ) (2020-09-25T12:01:53Z) - Generating Hierarchical Explanations on Text Classification via Feature
Interaction Detection [21.02924712220406]
特徴的相互作用を検出することによって階層的な説明を構築する。
このような説明は、単語とフレーズが階層の異なるレベルでどのように結合されるかを視覚化する。
実験は、モデルに忠実であり、人間に解釈可能な説明を提供する上で、提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-04-04T20:56:37Z) - Fairness by Learning Orthogonal Disentangled Representations [50.82638766862974]
不変表現問題に対する新しい非絡み合い手法を提案する。
エントロピーによりセンシティブな情報に依存しない有意義な表現を強制する。
提案手法は5つの公開データセットで評価される。
論文 参考訳(メタデータ) (2020-03-12T11:09:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。