論文の概要: Provable Robust Saliency-based Explanations
- arxiv url: http://arxiv.org/abs/2212.14106v3
- Date: Sat, 8 Jul 2023 17:57:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-07-11 18:54:27.355027
- Title: Provable Robust Saliency-based Explanations
- Title(参考訳): 確率ロバスト性に基づく説明
- Authors: Chao Chen, Chenghua Guo, Guixiang Ma, Ming Zeng, Xi Zhang, Sihong Xie
- Abstract要約: R2ETは, モデル精度を維持しつつ, ステルス攻撃下でのロバスト性が高いことを示す。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
- 参考スコア(独自算出の注目度): 16.217374556142484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robust explanations of machine learning models are critical to establishing
human trust in the models. The top-$k$ intersection is widely used to evaluate
the robustness of explanations. However, most existing attacking and defense
strategies are based on $\ell_p$ norms, thus creating a mismatch between the
evaluation and optimization objectives. To this end, we define explanation
thickness for measuring top-$k$ salient features ranking stability, and design
the \textit{R2ET} algorithm based on a novel tractable surrogate to maximize
the thickness and stabilize the top salient features efficiently.
Theoretically, we prove a connection between R2ET and adversarial training;
using a novel multi-objective optimization formulation and a generalization
error bound, we further prove that the surrogate objective can improve both the
numerical and statistical stability of the explanations. Experiments with a
wide spectrum of network architectures and data modalities demonstrate that
R2ET attains higher explanation robustness under stealthy attacks while
retaining model accuracy.
- Abstract(参考訳): 機械学習モデルのロバストな説明は、モデルに対する人間の信頼を確立する上で重要である。
最高$kの交差点は説明の堅牢性を評価するために広く使われている。
しかし、既存の攻撃および防御戦略の多くは$\ell_p$ノルムに基づいているため、評価と最適化の目的のミスマッチが生じる。
この目的のために,1k$サルエント特徴のランク付け安定性を測定するための説明厚みを定義し,その厚みを最大化し,最上位サルエント特徴を効率的に安定化するために,新しいトラクタブルサーロゲートに基づく \textit{r2et} アルゴリズムを設計する。
理論的には、R2ETと対向訓練の関連性を証明し、新しい多目的最適化定式化と一般化誤差境界を用いて、代理目的が説明の数値的および統計的安定性の両方を改善することを証明した。
ネットワークアーキテクチャとデータモダリティの幅広い実験により、R2ETはモデル精度を維持しながら、ステルス攻撃下でのロバスト性が高い説明が得られることが示された。
関連論文リスト
- Reliable Explanations or Random Noise? A Reliability Metric for XAI [6.948460965107209]
本研究では、4つの信頼性公理の下で説明安定性を定量化する指標である説明信頼性指数(ERI)を紹介する。
ERIは、説明信頼性の原則的評価を可能にし、より信頼できるAI(XAI)システムをサポートする。
論文 参考訳(メタデータ) (2026-02-04T22:04:07Z) - Explainability of Complex AI Models with Correlation Impact Ratio [10.61008729196936]
複雑なAIシステムはより良い予測を行うが、透明性が欠如し、信頼性、解釈可能性、安全なデプロイメントが制限されることが多い。
ExCIR(Explainability through correlation Impact Ratio)は,モデル出力に対する入力特徴の寄与を説明するための理論的基礎とシンプルで信頼性の高い指標である。
我々は,ExCIRが軽量なシングルパスの定式化により,相関した特徴から生じる依存関係をキャプチャすることを示した。
論文 参考訳(メタデータ) (2026-01-10T21:56:24Z) - ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning [2.1461777157838724]
ReasonBENCHは,大規模言語モデル(LLM)推論における基盤不安定性を定量化する最初のベンチマークである。
異なる領域からのタスク全体で、推論戦略とモデルの大部分は高い不安定性を示す。
我々はさらに、解答率と安定性のトレードオフに対するプロンプト、モデル家族、スケールの影響を解析する。
論文 参考訳(メタデータ) (2025-12-08T18:26:58Z) - Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG [10.620784202716404]
我々は,回路探索などの解釈可能性の手法を統計的推定器とみなすべきであると論じている。
本稿では,最先端回路探索手法であるEAP-IGの系統的安定性解析を行う。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - Feed Two Birds with One Scone: Exploiting Function-Space Regularization for Both OOD Robustness and ID Fine-Tuning Performance [72.57668440744301]
シミュレーションOODサンプルを用いて,関数空間における微調整モデルと事前学習モデルの距離を制約する新しい正規化を提案する。
このアプローチは、ダウンストリームタスクIDの微調整性能と、さまざまなCLIPバックボーン間のOODロバスト性の両方を一貫して改善できる。
論文 参考訳(メタデータ) (2025-08-31T12:14:34Z) - Distributionally Robust Optimization with Adversarial Data Contamination [49.89480853499918]
凸リプシッツ損失関数を持つ一般化線形モデルに対するワッサーシュタイン-1 DRO 目標の最適化に焦点をあてる。
私たちの主な貢献は、データ汚染のトレーニングに対するロバストネスと分散シフトに対するロバストネスを統合した、新しいモデリングフレームワークです。
この研究は、データ汚染と分散シフトという2つの課題の下で学習するために、効率的な計算によって支援される最初の厳密な保証を確立する。
論文 参考訳(メタデータ) (2025-07-14T18:34:10Z) - Reinforcement Fine-Tuning Naturally Mitigates Forgetting in Continual Post-Training [36.69514399442043]
本稿では,教師付きファインチューニング(SFT)と強化ファインチューニング(RFT)の2つのコアポストトレーニングパラダイムの比較分析を行った。
本実験は,7つの多様なマルチモーダルタスクからなるベンチマークで実施した。
論文 参考訳(メタデータ) (2025-07-07T18:17:06Z) - Provable Robust Overfitting Mitigation in Wasserstein Distributionally Robust Optimization [23.17991102874279]
本稿では,ワッサーシュタイン距離と統計的誤差による対向雑音に対する新しい不確実性セットの下で,新しいロバストな最適化フレームワークを提案する。
我々は,WDROの枠組みにおいて,ロバストなオーバーフィッティングを著しく軽減し,ロバスト性を高めることを実証した。
論文 参考訳(メタデータ) (2025-03-06T10:58:35Z) - TAET: Two-Stage Adversarial Equalization Training on Long-Tailed Distributions [3.9635480458924994]
現実のアプリケーションにディープニューラルネットワークをデプロイする上で、敵の堅牢性は重要な課題である。
本稿では,初期安定化フェーズと階層化された逆トレーニングフェーズを統合した新しいトレーニングフレームワークTAETを提案する。
提案手法は既存の先進防衛を超越し,メモリと計算効率の両面で大幅な改善を実現している。
論文 参考訳(メタデータ) (2025-03-02T12:07:00Z) - Is Smoothness the Key to Robustness? A Comparison of Attention and Convolution Models Using a Novel Metric [0.0]
既存の堅牢性評価アプローチは理論的な一般性を欠いているか、経験的評価に大きく依存していることが多い。
本研究では,トポロジカルデータ解析とリプシッツ連続性を橋渡ししてロバスト性評価を行う層解析に基づくトポリップを提案する。
論文 参考訳(メタデータ) (2024-10-23T07:44:14Z) - Rigorous Probabilistic Guarantees for Robust Counterfactual Explanations [80.86128012438834]
モデルシフトに対する反ファクトの堅牢性を計算することはNP完全であることを示す。
本稿では,頑健性の厳密な推定を高い保証で実現する新しい確率論的手法を提案する。
論文 参考訳(メタデータ) (2024-07-10T09:13:11Z) - Stability Evaluation via Distributional Perturbation Analysis [28.379994938809133]
分布摂動に基づく安定性評価基準を提案する。
我々の安定性評価基準は,エフェダデータの腐敗とエフェサブ人口シフトの両方に対処できる。
実証実験により,現実のアプリケーションにまたがる安定性評価基準の実用性を検証する。
論文 参考訳(メタデータ) (2024-05-06T06:47:14Z) - The Risk of Federated Learning to Skew Fine-Tuning Features and
Underperform Out-of-Distribution Robustness [50.52507648690234]
フェデレートされた学習は、微調整された特徴をスキイングし、モデルの堅牢性を損なうリスクがある。
3つのロバスト性指標を導入し、多様なロバストデータセットで実験を行う。
提案手法は,パラメータ効率のよい微調整手法を含む多種多様なシナリオにまたがるロバスト性を著しく向上させる。
論文 参考訳(メタデータ) (2024-01-25T09:18:51Z) - Doubly Robust Instance-Reweighted Adversarial Training [107.40683655362285]
本稿では,2重のインスタンス再重み付き対向フレームワークを提案する。
KL偏差正規化損失関数の最適化により重みを求める。
提案手法は, 平均ロバスト性能において, 最先端のベースライン法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-01T06:16:18Z) - Robust Feature Inference: A Test-time Defense Strategy using Spectral Projections [12.807619042576018]
我々はロバスト特徴推論(RFI)と呼ばれる新しいテスト時間防衛戦略を提案する。
RFIは、追加のテスト時間計算なしで既存の(ロバストな)トレーニング手順と簡単に統合できる。
RFIは、適応攻撃や転送攻撃によるロバスト性を継続的に改善することを示す。
論文 参考訳(メタデータ) (2023-07-21T16:18:58Z) - Robust Ranking Explanations [16.217374556142484]
敵対的攻撃、特により脆弱な勾配に基づく説明に対する攻撃に対して、最上位の健全な特徴を堅牢にすることは重要である。
$ell_p$-normsを使った既存の防御対策は、より弱い保護力を持つ。
安定度を推定するための記述厚みを定義し, トラクタブルなサロゲート境界を導出してtextitR2ET アルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-07-08T18:05:41Z) - Double Pessimism is Provably Efficient for Distributionally Robust
Offline Reinforcement Learning: Generic Algorithm and Robust Partial Coverage [15.858892479232656]
頑健なオフライン強化学習(ロバストオフラインRL)について検討する。
我々は、Douubly Pessimistic Model-based Policy Optimization(P2MPO$)と呼ばれる汎用アルゴリズムフレームワークを提案する。
P2MPO$は$tildemathcalO(n-1/2)$コンバーゼンスレートで、$n$はデータセットサイズである。
論文 参考訳(メタデータ) (2023-05-16T17:58:05Z) - Semantic Image Attack for Visual Model Diagnosis [80.36063332820568]
実際には、特定の列車およびテストデータセットに関する計量分析は、信頼性や公正なMLモデルを保証しない。
本稿では,セマンティック・イメージ・アタック(SIA)を提案する。
論文 参考訳(メタデータ) (2023-03-23T03:13:04Z) - A Stability Analysis of Fine-Tuning a Pre-Trained Model [46.6761331971071]
訓練済みモデルの微調整は、最近のNLP研究で最も有望なパラダイムの1つである。
微調整は不安定な問題、すなわち同じ設定で同じモデルをチューニングすることで、性能が著しく異なる。
本稿では,2つの一般的な設定に焦点をあてたファインチューニングの理論的安定性解析を提案する。
論文 参考訳(メタデータ) (2023-01-24T05:11:17Z) - Explicit Tradeoffs between Adversarial and Natural Distributional
Robustness [48.44639585732391]
実際、モデルは信頼性を確保するために両方のタイプの堅牢さを享受する必要があります。
本研究では, 対角線と自然分布の強靭性の間には, 明らかなトレードオフが存在することを示す。
論文 参考訳(メタデータ) (2022-09-15T19:58:01Z) - Adversarial Robustness under Long-Tailed Distribution [93.50792075460336]
敵対的ロバスト性はディープネットワークの脆弱性と本質的特徴を明らかにすることで近年広く研究されている。
本研究では,長尾分布下における敵対的脆弱性と防御について検討する。
我々は、スケール不変とデータ再分散という2つの専用モジュールからなるクリーンで効果的なフレームワークであるRoBalを提案する。
論文 参考訳(メタデータ) (2021-04-06T17:53:08Z) - Trust but Verify: Assigning Prediction Credibility by Counterfactual
Constrained Learning [123.3472310767721]
予測信頼性尺度は統計学と機械学習において基本的なものである。
これらの措置は、実際に使用される多種多様なモデルを考慮に入れるべきである。
この研究で開発されたフレームワークは、リスクフィットのトレードオフとして信頼性を表現している。
論文 参考訳(メタデータ) (2020-11-24T19:52:38Z) - A general framework for defining and optimizing robustness [74.67016173858497]
分類器の様々な種類の堅牢性を定義するための厳密でフレキシブルなフレームワークを提案する。
我々の概念は、分類器の堅牢性は正確性とは無関係な性質と考えるべきであるという仮定に基づいている。
我々は,任意の分類モデルに適用可能な,非常に一般的なロバスト性フレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-19T13:24:20Z) - Distributional Robustness and Regularization in Reinforcement Learning [62.23012916708608]
経験値関数の新しい正規化器を導入し、ワッサーシュタイン分布のロバストな値関数を下限とすることを示す。
強化学習における$textitexternalな不確実性に対処するための実用的なツールとして正規化を使用することを提案する。
論文 参考訳(メタデータ) (2020-03-05T19:56:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。