論文の概要: Probing Network Decisions: Capturing Uncertainties and Unveiling Vulnerabilities Without Label Information
- arxiv url: http://arxiv.org/abs/2503.09068v1
- Date: Wed, 12 Mar 2025 05:05:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:40:32.519063
- Title: Probing Network Decisions: Capturing Uncertainties and Unveiling Vulnerabilities Without Label Information
- Title(参考訳): ネットワーク上の決定: ラベル情報のない不確実性と脆弱性の発見
- Authors: Youngju Joung, Sehyun Lee, Jaesik Choi,
- Abstract要約: 本稿では, 対実例を用いて分類器の弱点を明らかにするための新しい枠組みを提案する。
本研究では, 画像分類ベンチマークを用いて, 誤分類検出の性能を検証し, その妥当性を検証した。
- 参考スコア(独自算出の注目度): 19.50321703079894
- License:
- Abstract: To improve trust and transparency, it is crucial to be able to interpret the decisions of Deep Neural classifiers (DNNs). Instance-level examinations, such as attribution techniques, are commonly employed to interpret the model decisions. However, when interpreting misclassified decisions, human intervention may be required. Analyzing the attribu tions across each class within one instance can be particularly labor intensive and influenced by the bias of the human interpreter. In this paper, we present a novel framework to uncover the weakness of the classifier via counterfactual examples. A prober is introduced to learn the correctness of the classifier's decision in terms of binary code-hit or miss. It enables the creation of the counterfactual example concerning the prober's decision. We test the performance of our prober's misclassification detection and verify its effectiveness on the image classification benchmark datasets. Furthermore, by generating counterfactuals that penetrate the prober, we demonstrate that our framework effectively identifies vulnerabilities in the target classifier without relying on label information on the MNIST dataset.
- Abstract(参考訳): 信頼と透明性を改善するためには、ディープニューラルネットワーク分類器(DNN)の決定を解釈できることが不可欠である。
帰属技術などのインスタンスレベルの検査は、一般的にモデル決定を解釈するために使用される。
しかし、誤分類された決定を解釈する際には、人間の介入が必要である。
1つのインスタンス内で各クラスのアトリブイオンを分析することは、特に労働集約的で、人間のインタプリタのバイアスに影響される可能性がある。
本稿では, 対実例を用いて分類器の弱点を明らかにするための新しい枠組みを提案する。
プローバーを導入して、バイナリコードヒットやミスという観点から分類器の決定の正しさを学習する。
プローバーの判断に関する反実的な例を作成することができる。
本研究では, 画像分類ベンチマークを用いて, 誤分類検出の性能を検証し, その妥当性を検証した。
さらに, プローバに侵入する偽物を生成することにより, MNISTデータセットのラベル情報に頼ることなく, ターゲット分類器の脆弱性を効果的に識別できることを実証した。
関連論文リスト
- Balancing Fairness and Accuracy in Data-Restricted Binary Classification [14.439413517433891]
本稿では,4つの実践シナリオ下での精度と公平性のトレードオフをモデル化する枠組みを提案する。
3つのデータセットの実験では、トレードオフを定量化するためのツールとして提案されたフレームワークの有用性が示されている。
論文 参考訳(メタデータ) (2024-03-12T15:01:27Z) - Explainable Fraud Detection with Deep Symbolic Classification [4.1205832766381985]
分類問題に対するDeep Symbolic Regressionフレームワークの拡張であるDeep Classificationを提案する。
関数は閉形式で簡潔な数学的表現であるため、モデルは1つの分類決定のレベルとモデルの決定過程の両方において本質的に説明可能である。
PaySimデータセットの評価は、最先端のモデルと競合する予測性能を示しながら、説明可能性の観点からそれらを上回っている。
論文 参考訳(メタデータ) (2023-12-01T13:50:55Z) - XAL: EXplainable Active Learning Makes Classifiers Better Low-resource Learners [71.8257151788923]
低リソーステキスト分類のための新しい説明可能なアクティブラーニングフレームワーク(XAL)を提案する。
XALは分類器に対して、推論を正当化し、合理的な説明ができないラベルのないデータを掘り下げることを推奨している。
6つのデータセットの実験では、XALは9つの強いベースラインに対して一貫した改善を達成している。
論文 参考訳(メタデータ) (2023-10-09T08:07:04Z) - Counterfactual Image Generation for adversarially robust and
interpretable Classifiers [1.3859669037499769]
本稿では,GAN(Generative Adrial Networks)を基盤として,画像から画像への変換を利用した統合フレームワークを提案する。
これは、分類器と識別器を1つのモデルに組み合わせて、実際の画像をそれぞれのクラスに属性付け、生成されたイメージを「フェイク」として生成することで達成される。
モデルが敵攻撃に対するロバスト性の向上を示すことを示すとともに,判別器の「フェイクネス」値が予測の不確かさの指標となることを示す。
論文 参考訳(メタデータ) (2023-10-01T18:50:29Z) - Probabilistic Safety Regions Via Finite Families of Scalable Classifiers [2.431537995108158]
監視された分類は、データのパターンを認識して、振る舞いのクラスを分離する。
正準解は、機械学習の数値近似の性質に固有の誤分類誤差を含む。
本稿では,確率論的安全性領域の概念を導入し,入力空間のサブセットとして,誤分類されたインスタンスの数を確率論的に制御する手法を提案する。
論文 参考訳(メタデータ) (2023-09-08T22:40:19Z) - Explaining Cross-Domain Recognition with Interpretable Deep Classifier [100.63114424262234]
解釈可能なDeep(IDC)は、ターゲットサンプルの最も近いソースサンプルを、分類器が決定を下す証拠として学習する。
我々のIDCは、精度の劣化がほとんどなく、最適なリジェクションオプションの分類を効果的に調整する、より説明可能なモデルに導かれる。
論文 参考訳(メタデータ) (2022-11-15T15:58:56Z) - Exploring the Trade-off between Plausibility, Change Intensity and
Adversarial Power in Counterfactual Explanations using Multi-objective
Optimization [73.89239820192894]
自動対物生成は、生成した対物インスタンスのいくつかの側面を考慮すべきである。
本稿では, 対実例生成のための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-20T15:02:53Z) - Resolving label uncertainty with implicit posterior models [71.62113762278963]
本稿では,データサンプルのコレクション間でラベルを共同で推論する手法を提案する。
異なる予測子を後部とする生成モデルの存在を暗黙的に仮定することにより、弱い信念の下での学習を可能にする訓練目標を導出する。
論文 参考訳(メタデータ) (2022-02-28T18:09:44Z) - Taming Adversarial Robustness via Abstaining [7.1975923901054575]
我々は,観測を逆境によって摂動させることができる二元分類問題を考える。
我々は、予測に対する信頼度が低い場合に、分類器が決定を棄却する断定オプションを含む。
本研究では, 減衰領域の選択方法に関係なく, 両指標のトレードオフが存在することを示した。
論文 参考訳(メタデータ) (2021-04-06T07:36:48Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z) - Certified Robustness to Label-Flipping Attacks via Randomized Smoothing [105.91827623768724]
機械学習アルゴリズムは、データ中毒攻撃の影響を受けやすい。
任意の関数に対するランダム化スムージングの統一的なビューを示す。
本稿では,一般的なデータ中毒攻撃に対して,ポイントワイズで確実に堅牢な分類器を構築するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2020-02-07T21:28:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。