論文の概要: On the Evaluation Consistency of Attribution-based Explanations
- arxiv url: http://arxiv.org/abs/2407.19471v1
- Date: Sun, 28 Jul 2024 11:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-30 18:02:25.082480
- Title: On the Evaluation Consistency of Attribution-based Explanations
- Title(参考訳): 属性に基づく説明の評価の整合性について
- Authors: Jiarui Duan, Haoling Li, Haofei Zhang, Hao Jiang, Mengqi Xue, Li Sun, Mingli Song, Jie Song,
- Abstract要約: 本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームであるMeta-Rankを紹介する。
1) 異なる設定下での属性評価手法の評価は、異なる性能ランキングを得ることができ、2) 多数のケースで矛盾するが、同一のトレーニング軌道に沿った個別のチェックポイントにまたがる顕著な一貫性を示す。
- 参考スコア(独自算出の注目度): 42.1421504321572
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Attribution-based explanations are garnering increasing attention recently and have emerged as the predominant approach towards \textit{eXplanable Artificial Intelligence}~(XAI). However, the absence of consistent configurations and systematic investigations in prior literature impedes comprehensive evaluations of existing methodologies. In this work, we introduce {Meta-Rank}, an open platform for benchmarking attribution methods in the image domain. Presently, Meta-Rank assesses eight exemplary attribution methods using six renowned model architectures on four diverse datasets, employing both the \textit{Most Relevant First} (MoRF) and \textit{Least Relevant First} (LeRF) evaluation protocols. Through extensive experimentation, our benchmark reveals three insights in attribution evaluation endeavors: 1) evaluating attribution methods under disparate settings can yield divergent performance rankings; 2) although inconsistent across numerous cases, the performance rankings exhibit remarkable consistency across distinct checkpoints along the same training trajectory; 3) prior attempts at consistent evaluation fare no better than baselines when extended to more heterogeneous models and datasets. Our findings underscore the necessity for future research in this domain to conduct rigorous evaluations encompassing a broader range of models and datasets, and to reassess the assumptions underlying the empirical success of different attribution methods. Our code is publicly available at \url{https://github.com/TreeThree-R/Meta-Rank}.
- Abstract(参考訳): 属性に基づく説明は近年注目を集めており、textit{eXplanable Artificial Intelligence}~(XAI)への主要なアプローチとして現れている。
しかし、先行文献における一貫した構成の欠如と体系的な調査は、既存の方法論の包括的な評価を妨げている。
本稿では,画像領域における属性メソッドのベンチマークを行うオープンプラットフォームである {Meta-Rank} を紹介する。
現在、Meta-Rankは6つの有名なモデルアーキテクチャを4つの多様なデータセット上で用いて、8つの模範的属性法を評価しており、それぞれが \textit{Most Relevant First} (MoRF) と \textit{Least Relevant First} (LeRF) の評価プロトコルを使用している。
大規模な実験を通じて、我々のベンチマークは属性評価の取り組みに関する3つの洞察を明らかにした。
1) 異なる条件下での帰属方法の評価は,異なる性能ランキングを得ることができる。
2) 多数の事例において矛盾するが,同一の訓練経路に沿って異なるチェックポイントにまたがる顕著な整合性を示す。
3) より異質なモデルやデータセットに拡張された場合,一貫した評価の試みは,ベースラインに匹敵するものではない。
この領域における今後の研究は、幅広いモデルやデータセットを含む厳密な評価を行い、様々な属性手法の実証的成功の背景にある仮定を再評価することの必要性を浮き彫りにしている。
我々のコードは \url{https://github.com/TreeThree-R/Meta-Rank} で公開されている。
関連論文リスト
- FEET: A Framework for Evaluating Embedding Techniques [0.5837446811360741]
FEETは、基礎モデルの開発とベンチマークのガイドとして設計された標準化されたプロトコルである。
フリーズ埋め込み、数発の埋め込み、完全に微調整された埋め込みの3つのユースケースを定義します。
論文 参考訳(メタデータ) (2024-11-02T18:03:49Z) - UMSE: Unified Multi-scenario Summarization Evaluation [52.60867881867428]
要約品質評価は、テキスト要約における非自明なタスクである。
統一多シナリオ要約評価モデル(UMSE)を提案する。
UMSEは3つの評価シナリオで使用できる能力に係わる最初の統合要約評価フレームワークである。
論文 参考訳(メタデータ) (2023-05-26T12:54:44Z) - Better Modelling Out-of-Distribution Regression on Distributed Acoustic
Sensor Data Using Anchored Hidden State Mixup [0.7455546102930911]
トレーニングデータとテストデータの統計的分布が異なる状況への機械学習モデルの応用を一般化することは、複雑な問題であった。
本稿では,正規化の新たなペナルティを形成するために,多様体隠蔽状態の混合と観測類似性を利用したアンカー型回帰混合アルゴリズムを提案する。
提案手法の既存手法に対する一般化性能を広範囲に評価し,提案手法が最先端性能を実現することを示す。
論文 参考訳(メタデータ) (2022-02-23T03:12:21Z) - Cross-Domain Few-Shot Graph Classification [7.23389716633927]
本稿では,非等価な特徴空間を持つ領域間の数ショットグラフ分類の問題について検討する。
本稿では,3つの連続したグラフビュー,1つのコンテキストと2つのトポロジ的ビューを利用するアテンションベースグラフエンコーダを提案する。
提案するエンコーダは,メトリックベースのメタラーニングフレームワークと組み合わせることで,平均メタテストの分類精度が向上することを示す。
論文 参考訳(メタデータ) (2022-01-20T16:16:30Z) - FewNLU: Benchmarking State-of-the-Art Methods for Few-Shot Natural
Language Understanding [89.92513889132825]
本稿では,従来の評価手順を,テスト性能,開発-テスト相関,安定性の3つの重要な側面で改善する評価フレームワークを提案する。
評価フレームワークを実装したツールキットFewNLUと、最先端のメソッドをオープンソースとして公開しています。
論文 参考訳(メタデータ) (2021-09-27T00:57:30Z) - Semi-Supervised Domain Generalization with Stochastic StyleMatch [90.98288822165482]
実世界のアプリケーションでは、アノテーションのコストが高いため、各ソースドメインから利用可能なラベルはわずかです。
本研究では,より現実的で実践的な半教師付き領域一般化について検討する。
提案手法であるStyleMatchは,擬似ラベルに基づく最先端の半教師付き学習手法であるFixMatchに着想を得たものである。
論文 参考訳(メタデータ) (2021-06-01T16:00:08Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - A Critical Assessment of State-of-the-Art in Entity Alignment [1.7725414095035827]
本稿では,知識グラフにおけるエンティティアライメントのタスクに対する2つの最先端(SotA)手法について検討する。
まず、ベンチマークプロセスについて慎重に検討し、いくつかの欠点を特定した。
論文 参考訳(メタデータ) (2020-10-30T15:09:19Z) - Document Ranking with a Pretrained Sequence-to-Sequence Model [56.44269917346376]
関連ラベルを「ターゲット語」として生成するためにシーケンス・ツー・シーケンス・モデルをどのように訓練するかを示す。
提案手法は,データポーラ方式におけるエンコーダのみのモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2020-03-14T22:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。