論文の概要: Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning
- arxiv url: http://arxiv.org/abs/2307.08327v1
- Date: Mon, 17 Jul 2023 08:50:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-18 14:15:43.641140
- Title: Analyzing the Impact of Adversarial Examples on Explainable Machine
Learning
- Title(参考訳): 説明可能な機械学習における逆例の影響分析
- Authors: Prathyusha Devabhakthini, Sasmita Parida, Raj Mani Shukla, Suvendu
Chandan Nayak
- Abstract要約: 敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
ディープラーニングモデルと敵攻撃の脆弱性に取り組むことで、モデルに望まないことを予測させるサンプルを非常に簡単に作成できることが示されています。
本研究では,テキスト分類問題に対する逆攻撃によるモデル解釈可能性の影響を解析する。
- 参考スコア(独自算出の注目度): 0.31498833540989407
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks are a type of attack on machine learning models where an
attacker deliberately modifies the inputs to cause the model to make incorrect
predictions. Adversarial attacks can have serious consequences, particularly in
applications such as autonomous vehicles, medical diagnosis, and security
systems. Work on the vulnerability of deep learning models to adversarial
attacks has shown that it is very easy to make samples that make a model
predict things that it doesn't want to. In this work, we analyze the impact of
model interpretability due to adversarial attacks on text classification
problems. We develop an ML-based classification model for text data. Then, we
introduce the adversarial perturbations on the text data to understand the
classification performance after the attack. Subsequently, we analyze and
interpret the model's explainability before and after the attack
- Abstract(参考訳): 敵対的攻撃は機械学習モデルに対する攻撃の一種であり、攻撃者は入力を意図的に修正し、モデルに誤った予測をさせる。
敵対的な攻撃は、特に自動運転車、医療診断、セキュリティシステムなどのアプリケーションにおいて深刻な結果をもたらす可能性がある。
ディープラーニングモデルの脆弱性から敵の攻撃への取り組みは、モデルが望まないことを予測させるサンプルを作るのは非常に簡単であることを示している。
本研究では,テキスト分類問題に対する敵意攻撃によるモデル解釈可能性の影響を分析する。
テキストデータのためのmlに基づく分類モデルを開発した。
次に,攻撃後の分類性能を理解するために,テキストデータの逆摂動について述べる。
その後、攻撃前後のモデルの説明可能性を分析し、解釈する。
関連論文リスト
- When Machine Learning Models Leak: An Exploration of Synthetic Training Data [0.0]
今後2年間で人や家庭が移転するかどうかを予測する機械学習モデルに対する攻撃について検討する。
この攻撃は、攻撃者がモデルをクエリして予測を得ることができ、モデルがトレーニングされたデータの限界分布が公開されていると仮定する。
モデルのトレーニングにおいて、元のデータを合成データに置き換えることが、攻撃者がどのように機密属性を推測できるかにどのように影響するかを検討する。
論文 参考訳(メタデータ) (2023-10-12T23:47:22Z) - Attacks on Online Learners: a Teacher-Student Analysis [8.567831574941252]
本稿では,オンライン学習環境における機械学習モデルに対する敵対的攻撃事例について検討する。
攻撃強度が臨界しきい値を超えると,学習者の精度が不連続に変化することが証明される。
以上の結果から,特にデータストリームを小さなバッチで処理した場合,強欲な攻撃は極めて効果的であることが示唆された。
論文 参考訳(メタデータ) (2023-05-18T17:26:03Z) - Can Adversarial Examples Be Parsed to Reveal Victim Model Information? [62.814751479749695]
本研究では,データ固有の敵インスタンスから,データに依存しない被害者モデル(VM)情報を推測できるかどうかを問う。
我々は,135件の被害者モデルから生成された7種類の攻撃に対して,敵攻撃のデータセットを収集する。
単純な教師付きモデル解析ネットワーク(MPN)は、見えない敵攻撃からVM属性を推測できることを示す。
論文 参考訳(メタデータ) (2023-03-13T21:21:49Z) - Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks [22.742818282850305]
Camouflaged data poisoning attackは、モデルの再トレーニングが誘発される場合に発生する。
特に、CIFAR-10、Imagenette、Imagewoofなどのデータセットに対するクリーンラベルターゲット攻撃について検討する。
この攻撃は、有毒なデータセットの効果を隠蔽するカモフラージュデータポイントを構築することで実現される。
論文 参考訳(メタデータ) (2022-12-21T01:52:17Z) - Towards Generating Adversarial Examples on Mixed-type Data [32.41305735919529]
そこで本研究では,M-Attackを用いた攻撃アルゴリズムを提案する。
M-Attackをベースとした攻撃者は、与えられたデータサンプルの数値的特徴と分類的特徴の両方をわずかに摂動させることで、ターゲットの分類モデルの予測を誤解させようとする。
我々の生成した敵の例は潜在的な検出モデルを避けることができるため、攻撃は本当に惨めである。
論文 参考訳(メタデータ) (2022-10-17T20:17:21Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z) - Adversarial Attack Attribution: Discovering Attributable Signals in
Adversarial ML Attacks [0.7883722807601676]
自動運転車やML-as-a-serviceのような生産システムでさえ、逆の入力の影響を受けやすい。
摂動入力は、攻撃を生成するために使われるメソッドに起因できるだろうか?
敵対攻撃属性の概念を導入し、敵対攻撃における攻撃可能信号の発見可能性を調べるための単純な教師付き学習実験フレームワークを作成する。
論文 参考訳(メタデータ) (2021-01-08T08:16:41Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Adversarial Attack and Defense of Structured Prediction Models [58.49290114755019]
本論文では,NLPにおける構造化予測タスクに対する攻撃と防御について検討する。
構造化予測モデルの構造化出力は、入力中の小さな摂動に敏感である。
本稿では,シーケンス・ツー・シーケンス・モデルを用いて,構造化予測モデルへの攻撃を学習する,新規で統一的なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-04T15:54:03Z) - Learning to Attack: Towards Textual Adversarial Attacking in Real-world
Situations [81.82518920087175]
敵攻撃は、敵の例でディープニューラルネットワークを騙すことを目的としている。
本稿では、攻撃履歴から学習し、より効率的に攻撃を開始することができる強化学習に基づく攻撃モデルを提案する。
論文 参考訳(メタデータ) (2020-09-19T09:12:24Z) - Adversarial Imitation Attack [63.76805962712481]
現実的な敵攻撃は、攻撃されたモデルの知識をできるだけ少なくする必要がある。
現在の代替攻撃では、敵の例を生成するために事前訓練されたモデルが必要である。
本研究では,新たな敵模倣攻撃を提案する。
論文 参考訳(メタデータ) (2020-03-28T10:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。