論文の概要: Enhancing Adversarial Example Detection Through Model Explanation
- arxiv url: http://arxiv.org/abs/2503.09735v1
- Date: Wed, 12 Mar 2025 18:34:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:55:03.494044
- Title: Enhancing Adversarial Example Detection Through Model Explanation
- Title(参考訳): モデル記述による逆例検出の強化
- Authors: Qian Ma, Ziping Ye,
- Abstract要約: 逆例は機械学習モデルの大きな問題である。
有望な方向性の1つは、モデル説明を活用して、これらの攻撃をよりよく理解し、防御することである。
我々は、NeurIPS 2018のスポットライトペーパーで提案されたAmIについて検討した。
- 参考スコア(独自算出の注目度): 3.2286050689351713
- License:
- Abstract: Adversarial examples are a major problem for machine learning models, leading to a continuous search for effective defenses. One promising direction is to leverage model explanations to better understand and defend against these attacks. We looked at AmI, a method proposed by a NeurIPS 2018 spotlight paper that uses model explanations to detect adversarial examples. Our study shows that while AmI is a promising idea, its performance is too dependent on specific settings (e.g., hyperparameter) and external factors such as the operating system and the deep learning framework used, and such drawbacks limit AmI's practical usage. Our findings highlight the need for more robust defense mechanisms that are effective under various conditions. In addition, we advocate for a comprehensive evaluation framework for defense techniques.
- Abstract(参考訳): 敵の例は機械学習モデルの大きな問題であり、効果的な防御の連続的な探索に繋がる。
有望な方向性の1つは、モデル説明を活用して、これらの攻撃をよりよく理解し、防御することである。
我々は、NeurIPS 2018のスポットライトペーパーで提案されたAmIについて検討した。
私たちの研究は、AmIは有望なアイデアであるが、その性能は特定の設定(例えば、ハイパーパラメータ)と、オペレーティングシステムやディープラーニングフレームワークなどの外部要因に依存しすぎており、こうした欠点はAmIの実用的使用を制限していることを示している。
本研究は, 各種条件下で有効である, より堅牢な防御機構の必要性を浮き彫りにした。
さらに,防衛技術に関する総合的な評価枠組みを提唱する。
関連論文リスト
- SAME: Sample Reconstruction against Model Extraction Attacks [16.057055009802923]
ディープラーニングモデルに対する大きな脅威の1つは、モデル攻撃である。
そこで本研究では,サンプル再構成の概念に基づく新しい防御機構であるTHETについて紹介する。
我々の実験は、最先端のソリューションよりもITSの優れた効果を裏付けるものである。
論文 参考訳(メタデータ) (2023-12-17T01:44:29Z) - Black-box Adversarial Attacks against Dense Retrieval Models: A
Multi-view Contrastive Learning Method [115.29382166356478]
本稿では,敵探索攻撃(AREA)タスクを紹介する。
DRモデルは、DRモデルによって取得された候補文書の初期セットの外側にあるターゲット文書を取得するように、DRモデルを騙すことを目的としている。
NRM攻撃で報告された有望な結果は、DRモデルに一般化されない。
マルチビュー表現空間における対照的な学習問題として,DRモデルに対する攻撃を形式化する。
論文 参考訳(メタデータ) (2023-08-19T00:24:59Z) - A Framework for Understanding Model Extraction Attack and Defense [48.421636548746704]
我々は,モデルユーティリティとユーザとのトレードオフと,敵の視点によるプライバシについて検討する。
我々は,このようなトレードオフを定量化し,その理論的特性を分析し,最適な敵攻撃・防衛戦略を理解するための最適化問題を開発する。
論文 参考訳(メタデータ) (2022-06-23T05:24:52Z) - Towards A Conceptually Simple Defensive Approach for Few-shot
classifiers Against Adversarial Support Samples [107.38834819682315]
本研究は,数発の分類器を敵攻撃から守るための概念的簡便なアプローチについて検討する。
本稿では,自己相似性とフィルタリングの概念を用いた簡易な攻撃非依存検出法を提案する。
ミニイメージネット(MI)とCUBデータセットの攻撃検出性能は良好である。
論文 参考訳(メタデータ) (2021-10-24T05:46:03Z) - Model-Agnostic Meta-Attack: Towards Reliable Evaluation of Adversarial
Robustness [53.094682754683255]
モデル非依存型メタアタック(MAMA)アプローチにより,より強力な攻撃アルゴリズムを自動検出する。
本手法は、繰り返しニューラルネットワークによってパラメータ化された逆攻撃を学習する。
本研究では,未知の防御を攻撃した場合の学習能力を向上させるために,モデルに依存しない訓練アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-10-13T13:54:24Z) - When and How to Fool Explainable Models (and Humans) with Adversarial
Examples [1.439518478021091]
説明可能な機械学習モデルに対する敵攻撃の可能性と限界について検討する。
まず、逆例の概念を拡張して、説明可能な機械学習シナリオに適合する。
次に、説明可能なモデルに対して、逆例を生成できるかどうかを総合的に検討する枠組みを提案する。
論文 参考訳(メタデータ) (2021-07-05T11:20:55Z) - Thief, Beware of What Get You There: Towards Understanding Model
Extraction Attack [13.28881502612207]
いくつかのシナリオでは、AIモデルはプロプライエタリに訓練され、事前に訓練されたモデルも十分な分散データも公開されていない。
既存の手法の有効性は,事前学習モデルの欠如に大きく影響している。
モデル抽出攻撃を、これらの要因を深層強化学習で捉える適応的フレームワークに定式化します。
論文 参考訳(メタデータ) (2021-04-13T03:46:59Z) - ExAD: An Ensemble Approach for Explanation-based Adversarial Detection [17.455233006559734]
説明手法のアンサンブルを用いて逆例を検出するフレームワークであるExADを提案する。
3つの画像データセットに対する6つの最先端の敵攻撃によるアプローチの評価を行った。
論文 参考訳(メタデータ) (2021-03-22T00:53:07Z) - Adversarial Examples for Unsupervised Machine Learning Models [71.81480647638529]
回避予測を引き起こすアドリラルな例は、機械学習モデルの堅牢性を評価し改善するために広く利用されている。
教師なしモデルに対する逆例生成の枠組みを提案し,データ拡張への新たな応用を実証する。
論文 参考訳(メタデータ) (2021-03-02T17:47:58Z) - Improving Robustness to Model Inversion Attacks via Mutual Information
Regularization [12.079281416410227]
本稿では,モデル逆転攻撃に対する防御機構について検討する。
MIは、ターゲット機械学習モデルへのアクセスからトレーニングデータ配布に関する情報を推測することを目的とした、プライバシ攻撃の一種である。
我々はMI攻撃に対するMID(Multual Information Regularization based Defense)を提案する。
論文 参考訳(メタデータ) (2020-09-11T06:02:44Z) - Boosting Adversarial Training with Hypersphere Embedding [53.75693100495097]
敵対的訓練は、ディープラーニングモデルに対する敵対的攻撃に対する最も効果的な防御の1つである。
本研究では,超球埋め込み機構をATプロシージャに組み込むことを提唱する。
我々は,CIFAR-10 と ImageNet データセットに対する幅広い敵対攻撃の下で本手法を検証した。
論文 参考訳(メタデータ) (2020-02-20T08:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。