論文の概要: ABLE: Using Adversarial Pairs to Construct Local Models for Explaining Model Predictions
- arxiv url: http://arxiv.org/abs/2511.21952v1
- Date: Wed, 26 Nov 2025 22:20:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.317098
- Title: ABLE: Using Adversarial Pairs to Construct Local Models for Explaining Model Predictions
- Title(参考訳): ABLE: モデル予測記述のための局所モデル構築のための対向ペアの使用
- Authors: Krishna Khadka, Sunny Shree, Pujan Budhathoki, Yu Lei, Raghu Kacker, D. Richard Kuhn,
- Abstract要約: LIMEのようなローカルな説明手法は、しばしば不安定さとローカルな忠実度に悩まされる。
本稿では,これらの制限に対処するため,Adversarially Bracketed Local Explanation (ABLE)を提案する。
我々の手法は最先端技術よりも高い安定性と忠実性を達成する。
- 参考スコア(独自算出の注目度): 1.5126511256696815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine learning models are increasingly used in critical applications but are mostly "black boxes" due to their lack of transparency. Local explanation approaches, such as LIME, address this issue by approximating the behavior of complex models near a test instance using simple, interpretable models. However, these approaches often suffer from instability and poor local fidelity. In this paper, we propose a novel approach called Adversarially Bracketed Local Explanation (ABLE) to address these limitations. Our approach first generates a set of neighborhood points near the test instance, x_test, by adding bounded Gaussian noise. For each neighborhood point D, we apply an adversarial attack to generate an adversarial point A with minimal perturbation that results in a different label than D. A second adversarial attack is then performed on A to generate a point A' that has the same label as D (and thus different than A). The points A and A' form an adversarial pair that brackets the local decision boundary for x_test. We then train a linear model on these adversarial pairs to approximate the local decision boundary. Experimental results on six UCI benchmark datasets across three deep neural network architectures demonstrate that our approach achieves higher stability and fidelity than the state-of-the-art.
- Abstract(参考訳): 機械学習モデルは、クリティカルなアプリケーションではますます使われているが、その透明性の欠如により、ほとんどが“ブラックボックス”である。
LIMEのような局所的な説明手法は、単純な解釈可能なモデルを使用してテストインスタンスの近くで複雑なモデルの振る舞いを近似することでこの問題に対処する。
しかし、これらのアプローチは不安定さと地域の忠実さに悩まされることが多い。
本稿では,これらの制約に対処するため,Adversarially Bracketed Local Explanation (ABLE) と呼ばれる新しい手法を提案する。
我々のアプローチはまず、境界ガウス雑音を加えることによって、テストインスタンス x_test の近傍点の集合を生成する。
各近傍点Dに対して、最小の摂動でDと異なるラベルとなる対向点Aを生成するために対向攻撃を適用し、A上で第2の対向攻撃を行い、Dと同一のラベルを持つ点A'を生成する(したがってAと異なる)。
点 A と A' は x_test の局所決定境界を括弧する対を形成する。
次に、これらの対の線形モデルを訓練し、局所的な決定境界を近似する。
3つのディープニューラルネットワークアーキテクチャにわたる6つのUCIベンチマークデータセットの実験結果は、我々のアプローチが最先端技術よりも高い安定性と忠実性を達成することを実証している。
関連論文リスト
- Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。
私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。
実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-07-31T09:42:42Z) - Persistent Classification: A New Approach to Stability of Data and Adversarial Examples [6.469716438197741]
本研究では,自然点と逆点の補間点に沿った持続的測定値の相違について検討する。
敵の例は、大きなニューラルネットワークの自然な例よりも持続性が著しく低いことを示す。
我々は、この永続性の欠如を、決定境界に関する補間物の角度を測定することによって、決定境界幾何学と結び付ける。
論文 参考訳(メタデータ) (2024-04-11T18:13:42Z) - Wasserstein distributional robustness of neural networks [9.79503506460041]
ディープニューラルネットワークは敵攻撃(AA)に弱いことが知られている
画像認識タスクでは、元の小さな摂動によって画像が誤分類される可能性がある。
本稿では,Wassersteinの分散ロバスト最適化(DRO)技術を用いて問題を再検討し,新しいコントリビューションを得た。
論文 参考訳(メタデータ) (2023-06-16T13:41:24Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - CEnt: An Entropy-based Model-agnostic Explainability Framework to
Contrast Classifiers' Decisions [2.543865489517869]
我々は任意の分類器の予測を局所的に対比する新しい手法を提案する。
コントラストエントロピーに基づく説明法CEntは、決定木によって局所的にモデルを近似し、異なる特徴分割のエントロピー情報を算出する。
CEntは、不変性(人種など)と半不変性(年齢が増加する方向にしか変化しない)を満足しながら、トレーニングデータに必ずしも存在しない多様な反事実を生成する最初の非漸進的コントラスト法である。
論文 参考訳(メタデータ) (2023-01-19T08:23:34Z) - Instability and Local Minima in GAN Training with Kernel Discriminators [20.362912591032636]
GAN(Generative Adversarial Networks)は、複雑なデータの生成モデリングに広く使われているツールである。
実験的な成功にもかかわらず、ジェネレータと判別器のmin-max最適化のため、GANの訓練は十分には理解されていない。
本稿では、真のサンプルと生成されたサンプルが離散有限集合であり、判別器がカーネルベースである場合に、これらの関節力学を解析する。
論文 参考訳(メタデータ) (2022-08-21T18:03:06Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z) - DAAIN: Detection of Anomalous and Adversarial Input using Normalizing
Flows [52.31831255787147]
我々は、アウト・オブ・ディストリビューション(OOD)インプットと敵攻撃(AA)を検出する新しい手法であるDAINを導入する。
本手法は,ニューラルネットワークの内部動作を監視し,活性化分布の密度推定器を学習する。
当社のモデルは,特別なアクセラレータを必要とせずに,効率的な計算とデプロイが可能な単一のGPUでトレーニングすることが可能です。
論文 参考訳(メタデータ) (2021-05-30T22:07:13Z) - Adversarial Examples for $k$-Nearest Neighbor Classifiers Based on
Higher-Order Voronoi Diagrams [69.4411417775822]
逆例は機械学習モデルにおいて広く研究されている現象である。
そこで本研究では,$k$-nearest 近傍分類の逆ロバスト性を評価するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-11-19T08:49:10Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。