論文の概要: Empirical Characterization of Rationale Stability Under Controlled Perturbations for Explainable Pattern Recognition
- arxiv url: http://arxiv.org/abs/2604.04456v1
- Date: Mon, 06 Apr 2026 06:05:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.112451
- Title: Empirical Characterization of Rationale Stability Under Controlled Perturbations for Explainable Pattern Recognition
- Title(参考訳): 説明可能なパターン認識のための制御摂動下でのランタリー安定性の実証評価
- Authors: Abu Noman Md Sakib, Zhensen Wang, Merjulah Roby, Zijie Zhang,
- Abstract要約: モデル説明の整合性を評価するための新しい指標を提案する。
我々は,SST-2感情分析データセット上で,事前学習したBERTモデルを用いて,この指標を実装した。
モデル説明における誤一致予測と矛盾を識別する能力を評価する。
- 参考スコア(独自算出の注目度): 0.876171257490837
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reliable pattern recognition systems should exhibit consistent behavior across similar inputs, and their explanations should remain stable. However, most Explainable AI evaluations remain instance centric and do not explicitly quantify whether attribution patterns are consistent across samples that share the same class or represent small variations of the same input. In this work, we propose a novel metric aimed at assessing the consistency of model explanations, ensuring that models consistently reflect the intended objectives and consistency under label-preserving perturbations. We implement this metric using a pre-trained BERT model on the SST-2 sentiment analysis dataset, with additional robustness tests on RoBERTa, DistilBERT, and IMDB, applying SHAP to compute feature importance for various test samples. The proposed metric quantifies the cosine similarity of SHAP values for inputs with the same label, aiming to detect inconsistent behaviors, such as biased reliance on certain features or failure to maintain consistent reasoning for similar predictions. Through a series of experiments, we evaluate the ability of this metric to identify misaligned predictions and inconsistencies in model explanations. These experiments are compared against standard fidelity metrics to assess whether the new metric can effectively identify when a model's behavior deviates from its intended objectives. The proposed framework provides a deeper understanding of model behavior by enabling more robust verification of rationale stability, which is critical for building trustworthy AI systems. By quantifying whether models rely on consistent attribution patterns for similar inputs, the proposed approach supports more robust evaluation of model behavior in practical pattern recognition pipelines. Our code is publicly available at https://github.com/anmspro/ESS-XAI-Stability.
- Abstract(参考訳): 信頼性の高いパターン認識システムは、類似の入力に対して一貫した振る舞いを示し、その説明は安定していなければならない。
しかし、ほとんどの説明可能なAI評価はインスタンス中心であり、同じクラスを共有したり、同じ入力の小さなバリエーションを表すサンプル間で属性パターンが一貫性があるかどうかを明示的に定量化していない。
本研究では,モデル記述の一貫性を評価することを目的とした新しい指標を提案し,ラベル保存摂動下でモデルが意図した目的と一貫性を一貫して反映することを保証する。
我々は,SST-2感情分析データセット上で事前学習したBERTモデルを用いて,RoBERTa,DistilBERT,IMDB上でのロバスト性テストを行い,SHAPを用いて様々なテストサンプルの特徴を計算した。
提案手法は,同一ラベルの入力に対するSHAP値のコサイン類似性を定量化し,特定の特徴への偏りや類似した予測に対する一貫した推論の維持に失敗など,一貫性のない動作を検出することを目的としている。
一連の実験を通して、モデル説明における誤一致予測と矛盾を識別するこの指標の能力を評価する。
これらの実験は、モデルの振る舞いが意図した目的から逸脱した時に、新しい指標が効果的に識別できるかどうかを評価するために、標準的な忠実度指標と比較される。
提案したフレームワークは、信頼性の高いAIシステムを構築する上で重要な合理的安定性のより堅牢な検証を可能にすることによって、モデル行動のより深い理解を提供する。
モデルが類似した入力に対して一貫した帰属パターンに依存しているかどうかを定量化することにより、本提案手法は実用的なパターン認識パイプラインにおけるモデル挙動のより堅牢な評価を支援する。
私たちのコードはhttps://github.com/anmspro/ESS-XAI-Stability.orgで公開されています。
関連論文リスト
- SeFEF: A Seizure Forecasting Evaluation Framework [0.0]
我々は,発作予測アルゴリズムの開発,評価,ドキュメントの効率化を目的としたPythonベースのフレームワークを紹介する。
このフレームワークは、データラベリング、クロスバリデーション分割、予測後処理、パフォーマンス評価、レポートを自動化する。
様々な予測水平線をサポートし、実装の詳細、トレーニングと評価設定、パフォーマンスメトリクスを文書化するモデルカードを含んでいる。
論文 参考訳(メタデータ) (2025-10-13T11:10:27Z) - Model Correlation Detection via Random Selection Probing [62.093777777813756]
既存の類似性に基づく手法では、モデルパラメータにアクセスしたり、しきい値なしでスコアを生成する必要がある。
本稿では,モデル相関検出を統計的テストとして定式化する仮説テストフレームワークであるランダム選択探索(RSP)を紹介する。
RSPは相関の証拠を定量化する厳密なp-値を生成する。
論文 参考訳(メタデータ) (2025-09-29T01:40:26Z) - PASA: Attack Agnostic Unsupervised Adversarial Detection using Prediction & Attribution Sensitivity Analysis [2.5347892611213614]
分類のためのディープニューラルネットワークは、サンプル入力に対する小さな摂動が誤った予測につながる敵攻撃に対して脆弱である。
本研究では, モデル予測と特徴属性のこの特性の実用的手法を開発し, 対向サンプルを検出する。
本手法は,敵が防御機構を認識した場合でも,競争性能を示す。
論文 参考訳(メタデータ) (2024-04-12T21:22:21Z) - The Implicit Delta Method [61.36121543728134]
本稿では,不確実性のトレーニング損失を無限に正規化することで機能する,暗黙のデルタ法を提案する。
有限差分により無限小変化が近似された場合でも, 正則化による評価の変化は評価推定器の分散に一定であることを示す。
論文 参考訳(メタデータ) (2022-11-11T19:34:17Z) - Reliability-Aware Prediction via Uncertainty Learning for Person Image
Retrieval [51.83967175585896]
UALは、データ不確実性とモデル不確実性を同時に考慮し、信頼性に配慮した予測を提供することを目的としている。
データ不確実性はサンプル固有のノイズを捕捉する」一方、モデル不確実性はサンプルの予測に対するモデルの信頼を表現している。
論文 参考訳(メタデータ) (2022-10-24T17:53:20Z) - Logical Satisfiability of Counterfactuals for Faithful Explanations in
NLI [60.142926537264714]
本稿では, 忠実度スルー・カウンタファクトの方法論について紹介する。
これは、説明に表される論理述語に基づいて、反実仮説を生成する。
そして、そのモデルが表現された論理と反ファクトの予測が一致しているかどうかを評価する。
論文 参考訳(メタデータ) (2022-05-25T03:40:59Z) - Unveiling Project-Specific Bias in Neural Code Models [20.131797671630963]
大規模言語モデル(LLM)ベースのニューラルネットワークモデルは、実際のプロジェクト間アウトオブディストリビューション(OOD)データに効果的に一般化するのに苦労することが多い。
この現象は, 地中真実の証拠ではなく, プロジェクト固有のショートカットによる予測に大きく依存していることが示唆された。
サンプル間の潜在論理関係を利用してモデルの学習行動を規則化する新しいバイアス緩和機構を提案する。
論文 参考訳(メタデータ) (2022-01-19T02:09:48Z) - Model-Value Inconsistency as a Signal for Epistemic Uncertainty [22.492926703232015]
自己整合性(Self-Insistency)は、探索のための信号であり、(ii)分散シフトの下で安全に行動するための信号であり、(iii)モデルによる価値に基づく計画の堅牢化のための信号である。
従来の研究とは異なり、このアプローチはモデルベース強化学習アルゴリズムですでに学習されている単一のモデルと値関数のみを必要とする。
論文 参考訳(メタデータ) (2021-12-08T07:53:41Z) - Training on Test Data with Bayesian Adaptation for Covariate Shift [96.3250517412545]
ディープニューラルネットワークは、信頼できない不確実性推定で不正確な予測を行うことが多い。
分布シフトの下でのラベルなし入力とモデルパラメータとの明確に定義された関係を提供するベイズモデルを導出する。
本手法は精度と不確実性の両方を向上することを示す。
論文 参考訳(メタデータ) (2021-09-27T01:09:08Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - Achieving Equalized Odds by Resampling Sensitive Attributes [13.114114427206678]
等価性の概念をほぼ満足する予測モデルを学習するためのフレキシブルなフレームワークを提案する。
この微分可能な関数は、モデルパラメータを等化奇数に向けて駆動するペナルティとして使用される。
本研究は,予測規則が本性質に反するか否かを検出するための公式な仮説テストを開発する。
論文 参考訳(メタデータ) (2020-06-08T00:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。