論文の概要: AED: An black-box NLP classifier model attacker
- arxiv url: http://arxiv.org/abs/2112.11660v4
- Date: Sun, 03 Nov 2024 01:47:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 14:41:05.055592
- Title: AED: An black-box NLP classifier model attacker
- Title(参考訳): AED: ブラックボックスのNLP分類器モデルアタッカー
- Authors: Yueyang Liu, Yan Huang, Zhipeng Cai,
- Abstract要約: Deep Neural Networks(DNN)は、コネクテッドおよび自動化された車両、疾患、雇用といった領域における現実世界のタスクの解決に成功している。
これらのDNNモデルの潜在的なバイアスと堅牢性に関する懸念が高まっている。
本稿では,単語レベルのNLP分類器攻撃モデル"AED"を提案する。
- 参考スコア(独自算出の注目度): 8.15167980163668
- License:
- Abstract: Deep Neural Networks (DNNs) have been successful in solving real-world tasks in domains such as connected and automated vehicles, disease, and job hiring. However, their implications are far-reaching in critical application areas. Hence, there is a growing concern regarding the potential bias and robustness of these DNN models. A transparency and robust model is always demanded in high-stakes domains where reliability and safety are enforced, such as healthcare and finance. While most studies have focused on adversarial image attack scenarios, fewer studies have investigated the robustness of DNN models in natural language processing (NLP) due to their adversarial samples are difficult to generate. To address this gap, we propose a word-level NLP classifier attack model called "AED," which stands for Attention mechanism enabled post-model Explanation with Density peaks clustering algorithm for synonyms search and substitution. AED aims to test the robustness of NLP DNN models by interpretability their weaknesses and exploring alternative ways to optimize them. By identifying vulnerabilities and providing explanations, AED can help improve the reliability and safety of DNN models in critical application areas such as healthcare and automated transportation. Our experiment results demonstrate that compared with other existing models, AED can effectively generate adversarial examples that can fool the victim model while maintaining the original meaning of the input.
- Abstract(参考訳): Deep Neural Networks(DNN)は、コネクテッドおよび自動化された車両、疾患、雇用といった領域における現実世界のタスクの解決に成功している。
しかし、重要な応用分野において、その影響は遥かに大きい。
したがって、これらのDNNモデルの潜在的なバイアスと堅牢性に対する懸念が高まっている。
透明性とロバストなモデルは、医療や金融など、信頼性と安全性が強制されるハイテイクな領域で常に要求される。
多くの研究では、敵対的なイメージアタックのシナリオに焦点が当てられているが、自然言語処理(NLP)におけるDNNモデルの頑健性は、その逆のサンプルの生成が困難であるために調査されている研究は少ない。
このギャップに対処するために,単語レベルのNLP分類器攻撃モデル"AED"を提案する。
AEDは、NLP DNNモデルの堅牢性をテストすることを目的としており、弱点を解釈し、最適化するための代替方法を模索している。
脆弱性を特定し、説明を提供することで、医療や自動輸送といった重要なアプリケーション領域におけるDNNモデルの信頼性と安全性を向上させることができる。
実験の結果,AEDは他の既存モデルと比較して,入力の本来の意味を保ちながら,被害者モデルを騙し得る敵の例を効果的に生成できることが示唆された。
関連論文リスト
- Securing Graph Neural Networks in MLaaS: A Comprehensive Realization of Query-based Integrity Verification [68.86863899919358]
我々は機械学習におけるGNNモデルをモデル中心の攻撃から保護するための画期的なアプローチを導入する。
提案手法は,GNNの完全性に対する包括的検証スキーマを含み,トランスダクティブとインダクティブGNNの両方を考慮している。
本稿では,革新的なノード指紋生成アルゴリズムを組み込んだクエリベースの検証手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T03:17:05Z) - KNOW How to Make Up Your Mind! Adversarially Detecting and Alleviating
Inconsistencies in Natural Language Explanations [52.33256203018764]
不整合性NLEを検出するために既存の敵攻撃を大幅に改善するために,外部知識ベースを活用する。
高いNLE品質のモデルが必ずしも矛盾を生じさせるとは限らないことを示す。
論文 参考訳(メタデータ) (2023-06-05T15:51:58Z) - gRoMA: a Tool for Measuring the Global Robustness of Deep Neural
Networks [3.2228025627337864]
ディープニューラルネットワーク(DNN)は最先端技術の最前線にあり、さまざまな複雑なタスクにおいて顕著なパフォーマンスを実現している。
航空宇宙分野や自動車分野などの安全クリティカルシステムへの統合は、敵の入力の脅威のために大きな課題となる。
本稿では,DNNのグローバルな分類的ロバスト性を測定するための確率論的アプローチを実装した,革新的でスケーラブルなツールであるgRoMAを紹介する。
論文 参考訳(メタデータ) (2023-01-05T20:45:23Z) - Improving Interpretability via Regularization of Neural Activation
Sensitivity [20.407987149443997]
最先端のディープニューラルネットワーク(DNN)は多くの現実世界のタスクに取り組むのに非常に効果的である。
彼らは敵対的な攻撃を受けやすく、その不透明さはユーザーのアウトプットに対する信頼を損なう。
ニューラルアクティベーション感度の正規化に基づくDNNの解釈性向上のための新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T05:40:29Z) - Robust and Lossless Fingerprinting of Deep Neural Networks via Pooled
Membership Inference [17.881686153284267]
ディープニューラルネットワーク(DNN)は、すでに多くのアプリケーション分野で大きな成功を収めており、私たちの社会に大きな変化をもたらしています。
DNNの知的財産権(IP)を侵害から保護する方法は、最も重要かつ非常に困難なトピックの1つである。
本稿では,DNNモデルのIPを保護するために,Emphpooled Memberation Inference (PMI) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-09T04:06:29Z) - Improved and Interpretable Defense to Transferred Adversarial Examples
by Jacobian Norm with Selective Input Gradient Regularization [31.516568778193157]
ディープニューラルネットワーク(DNN)の堅牢性を改善するために、AT(Adversarial Training)がよく用いられる。
本研究では,ジャコビアンノルムと選択的入力勾配正規化(J-SIGR)に基づくアプローチを提案する。
実験により、提案したJ-SIGRは、転送された敵攻撃に対するロバスト性を向上し、ニューラルネットワークからの予測が容易に解釈できることが示されている。
論文 参考訳(メタデータ) (2022-07-09T01:06:41Z) - Latent Boundary-guided Adversarial Training [61.43040235982727]
モデルトレーニングに敵の例を注入する最も効果的な戦略は、敵のトレーニングであることが証明されている。
本稿では, LAtent bounDary-guided aDvErsarial tRaining という新たな逆トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-08T07:40:55Z) - Exploring Robustness of Unsupervised Domain Adaptation in Semantic
Segmentation [74.05906222376608]
クリーンな画像とそれらの逆の例との一致を、出力空間における対照的な損失によって最大化する、逆向きの自己スーパービジョンUDA(ASSUDA)を提案する。
i) セマンティックセグメンテーションにおけるUDA手法のロバスト性は未解明のままであり, (ii) 一般的に自己スーパービジョン(回転やジグソーなど) は分類や認識などのイメージタスクに有効であるが, セグメンテーションタスクの識別的表現を学習する重要な監視信号の提供には失敗している。
論文 参考訳(メタデータ) (2021-05-23T01:50:44Z) - On the benefits of robust models in modulation recognition [53.391095789289736]
畳み込み層を用いたディープニューラルネットワーク(DNN)は、通信における多くのタスクにおいて最先端である。
画像分類のような他の領域では、DNNは敵の摂動に弱いことが示されている。
最新モデルの堅牢性をテストするための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-03-27T19:58:06Z) - Towards Robust Neural Networks via Orthogonal Diversity [30.77473391842894]
敵の訓練とその変種に代表される一連の手法は、ディープニューラルネットワークの堅牢性を高める最も効果的な手法の1つとして証明されている。
本稿では, 多様な入力に適応する特徴を学習するために, モデルの拡張を目的とした新しい防御手法を提案する。
このようにして、提案したDIOは、これらの相互直交経路によって学習された特徴を補正できるため、モデルを強化し、DNN自体の堅牢性を高める。
論文 参考訳(メタデータ) (2020-10-23T06:40:56Z) - Graph Backdoor [53.70971502299977]
GTAはグラフニューラルネットワーク(GNN)に対する最初のバックドア攻撃である。
GTAは、トポロジカル構造と記述的特徴の両方を含む特定の部分グラフとしてトリガーを定義する。
トランスダクティブ(ノード分類など)とインダクティブ(グラフ分類など)の両方のタスクに対してインスタンス化することができる。
論文 参考訳(メタデータ) (2020-06-21T19:45:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。