論文の概要: Why Do Class-Dependent Evaluation Effects Occur with Time Series Feature Attributions? A Synthetic Data Investigation
- arxiv url: http://arxiv.org/abs/2506.11790v1
- Date: Fri, 13 Jun 2025 13:52:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.818065
- Title: Why Do Class-Dependent Evaluation Effects Occur with Time Series Feature Attributions? A Synthetic Data Investigation
- Title(参考訳): 時系列特徴属性による授業依存評価効果はなぜ生じるのか? : 合成データによる検討
- Authors: Gregor Baer, Isel Grau, Chao Zhang, Pieter Van Gorp,
- Abstract要約: 「クラス依存評価効果」は、摂動解析が帰属品質を確実に測定するかどうかという疑問を提起する。
複数の帰属法を用いて,摂動に基づく劣化スコアと地中真理に基づく精度評価値を比較した。
最も重要な点として、摂動に基づく実測値と基底的実測値が、クラスごとの帰属品質の矛盾した評価をしばしば得ることが挙げられる。
- 参考スコア(独自算出の注目度): 5.136283512042341
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluating feature attribution methods represents a critical challenge in explainable AI (XAI), as researchers typically rely on perturbation-based metrics when ground truth is unavailable. However, recent work demonstrates that these evaluation metrics can show different performance across predicted classes within the same dataset. These "class-dependent evaluation effects" raise questions about whether perturbation analysis reliably measures attribution quality, with direct implications for XAI method development and the trustworthiness of evaluation techniques. We investigate under which conditions these class-dependent effects arise by conducting controlled experiments with synthetic time series data where ground truth feature locations are known. We systematically vary feature types and class contrasts across binary classification tasks, then compare perturbation-based degradation scores with ground truth-based precision-recall metrics using multiple attribution methods. Our experiments demonstrate that class-dependent effects emerge with both evaluation approaches even in simple scenarios with temporally localized features, triggered by basic variations in feature amplitude or temporal extent between classes. Most critically, we find that perturbation-based and ground truth metrics frequently yield contradictory assessments of attribution quality across classes, with weak correlations between evaluation approaches. These findings suggest that researchers should interpret perturbation-based metrics with care, as they may not always align with whether attributions correctly identify discriminating features. These findings reveal opportunities to reconsider what attribution evaluation actually measures and to develop more comprehensive evaluation frameworks that capture multiple dimensions of attribution quality.
- Abstract(参考訳): 機能属性の手法を評価することは、説明可能なAI(XAI)において重要な課題である。
しかし、最近の研究は、これらの評価指標が、同じデータセット内の予測クラス間で異なるパフォーマンスを示すことを実証している。
これらの「クラス依存評価効果」は、XAI法の発展と評価手法の信頼性に直接的な影響を伴って、摂動解析が帰属品質を確実に測定するかどうかという疑問を提起する。
本研究では,これらのクラス依存効果が,地上の真実の特徴が知られている合成時系列データを用いて制御実験を行うことによって生じる条件について検討する。
特徴型とクラスコントラストを2次分類タスク間で体系的に変化させ, 摂動に基づく劣化スコアと基底真理に基づく精度-リコール指標を複数の属性法を用いて比較した。
本実験は, 時間的局所化特徴を持つ単純なシナリオにおいても, クラス間の時間的振幅や時間的振幅の基本的な変化によって, クラス依存効果が出現することが実証された。
最も重要なことは、摂動に基づく実測値と基底実測値が、クラス間の帰属品質の矛盾した評価をしばしば得ることであり、評価手法の間には弱い相関関係があることである。
これらの結果は、属性が識別する特徴を正しく識別するかどうかを常に一致しないため、摂動に基づくメトリクスをケアで解釈すべきであることを示している。
これらの結果から,帰属評価が実際に何を計測しているかを再考し,帰属品質の複数の次元を捉えた総合的な評価フレームワークを開発する機会が示唆された。
関連論文リスト
- Data Fusion for Partial Identification of Causal Effects [62.56890808004615]
本稿では,研究者が重要な疑問に答えられるような,新しい部分的識別フレームワークを提案する。
因果効果は肯定的か否定的か?
本研究の枠組みをSTARプロジェクトに適用し,第3級の標準試験性能に対する教室規模の影響について検討する。
論文 参考訳(メタデータ) (2025-05-30T07:13:01Z) - Class-Dependent Perturbation Effects in Evaluating Time Series Attributions [5.136283512042341]
以前見過ごされたクラス依存効果を特徴属性の指標で示す。
解析の結果,摂動に基づく評価は,本質的な属性品質よりも,特定のモデル行動を反映する可能性が示唆された。
本稿では,これらの効果の評価と評価を支援するために,クラス認識型ペナルティ用語を用いた評価フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-24T10:22:03Z) - Benchmarking common uncertainty estimation methods with
histopathological images under domain shift and label noise [62.997667081978825]
リスクの高い環境では、深層学習モデルは不確実性を判断し、誤分類の可能性がかなり高い場合に入力を拒否しなければなりません。
我々は,全スライド画像の分類において,最もよく使われている不確実性と頑健さの厳密な評価を行う。
我々は一般的に,手法のアンサンブルが,ドメインシフトやラベルノイズに対するロバスト性の向上とともに,より良い不確実性評価につながることを観察する。
論文 参考訳(メタデータ) (2023-01-03T11:34:36Z) - Systematic Evaluation of Predictive Fairness [60.0947291284978]
バイアス付きデータセットのトレーニングにおけるバイアスの緩和は、重要なオープンな問題である。
複数のタスクにまたがる様々なデバイアス化手法の性能について検討する。
データ条件が相対モデルの性能に強い影響を与えることがわかった。
論文 参考訳(メタデータ) (2022-10-17T05:40:13Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z) - Doing Great at Estimating CATE? On the Neglected Assumptions in
Benchmark Comparisons of Treatment Effect Estimators [91.3755431537592]
もっとも単純な設定であっても、無知性仮定に基づく推定は誤解を招く可能性があることを示す。
異種処理効果評価のための機械学習ベンチマークデータセットを2つ検討した。
ベンチマークデータセットの固有の特性が、他のものよりもいくつかのアルゴリズムを好んでいる点を強調します。
論文 参考訳(メタデータ) (2021-07-28T13:21:27Z) - Does Your Dermatology Classifier Know What It Doesn't Know? Detecting
the Long-Tail of Unseen Conditions [18.351120611713586]
皮膚の状態を正確に分類できる深層学習システムを開発し,厳密に評価した。
このタスクは、アウトオブディストリビューション(OOD)検出問題としてフレーム化します。
我々の新しいアプローチである階層外乱検出(HOD)は、各トレーニングクラスに対して複数の禁制クラスを割り当て、インレーヤ対外乱の粗い分類を共同で行う。
論文 参考訳(メタデータ) (2021-04-08T15:15:22Z) - A Skew-Sensitive Evaluation Framework for Imbalanced Data Classification [11.125446871030734]
不均衡なデータセットのクラス分布スキューは、多数派クラスに対する予測バイアスのあるモデルにつながる可能性がある。
本稿では,不均衡なデータ分類のための簡易かつ汎用的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-12T19:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。