論文の概要: Adversarial Attacks and Dimensionality in Text Classifiers
- arxiv url: http://arxiv.org/abs/2404.02660v1
- Date: Wed, 3 Apr 2024 11:49:43 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 17:31:03.091119
- Title: Adversarial Attacks and Dimensionality in Text Classifiers
- Title(参考訳): テキスト分類器における逆攻撃と次元性
- Authors: Nandish Chattopadhyay, Atreya Goswami, Anupam Chattopadhyay,
- Abstract要約: 機械学習アルゴリズムに対する敵対的な攻撃は、多くの現実世界のユースケースにおいて、AIの採用を妨げている。
本研究では,自然言語処理分野,特にテキスト分類タスクにおける逆例について検討する。
- 参考スコア(独自算出の注目度): 3.4179091429029382
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks on machine learning algorithms have been a key deterrent to the adoption of AI in many real-world use cases. They significantly undermine the ability of high-performance neural networks by forcing misclassifications. These attacks introduce minute and structured perturbations or alterations in the test samples, imperceptible to human annotators in general, but trained neural networks and other models are sensitive to it. Historically, adversarial attacks have been first identified and studied in the domain of image processing. In this paper, we study adversarial examples in the field of natural language processing, specifically text classification tasks. We investigate the reasons for adversarial vulnerability, particularly in relation to the inherent dimensionality of the model. Our key finding is that there is a very strong correlation between the embedding dimensionality of the adversarial samples and their effectiveness on models tuned with input samples with same embedding dimension. We utilize this sensitivity to design an adversarial defense mechanism. We use ensemble models of varying inherent dimensionality to thwart the attacks. This is tested on multiple datasets for its efficacy in providing robustness. We also study the problem of measuring adversarial perturbation using different distance metrics. For all of the aforementioned studies, we have run tests on multiple models with varying dimensionality and used a word-vector level adversarial attack to substantiate the findings.
- Abstract(参考訳): 機械学習アルゴリズムに対する敵対的な攻撃は、多くの現実世界のユースケースにおいて、AIの採用を妨げている。
それらは、誤分類を強制することによって、高性能ニューラルネットワークの能力を著しく損なう。
これらの攻撃は、試験サンプルに微小で構造的な摂動や変化を導入し、一般にヒトのアノテータには受け入れられないが、訓練されたニューラルネットワークやその他のモデルはそれに敏感である。
歴史的に、敵対的攻撃は画像処理の領域で最初に特定され研究されている。
本稿では,自然言語処理分野,特にテキスト分類タスクにおける逆例について検討する。
本稿では,特にモデル固有の次元性に関して,敵対的脆弱性の原因について検討する。
我々の重要な発見は、対向サンプルの埋め込み次元と、同じ埋め込み次元の入力サンプルに調整されたモデルにおけるそれらの有効性との間に非常に強い相関関係があることである。
我々はこの感度を利用して敵防衛機構を設計する。
攻撃を阻止するために、さまざまな固有の次元のアンサンブルモデルを使用します。
これは、堅牢性を提供するための有効性のために、複数のデータセットでテストされる。
また,異なる距離の計測値を用いて逆方向の摂動を測定する問題についても検討した。
上記の研究のすべてに対して、様々な次元を持つ複数のモデルでテストを行い、単語ベクトルレベルの逆攻撃を用いてその知見を裏付ける。
関連論文リスト
- A Geometrical Approach to Evaluate the Adversarial Robustness of Deep
Neural Networks [52.09243852066406]
対向収束時間スコア(ACTS)は、対向ロバストネス指標として収束時間を測定する。
我々は,大規模画像Netデータセットに対する異なる敵攻撃に対して,提案したACTSメトリックの有効性と一般化を検証する。
論文 参考訳(メタデータ) (2023-10-10T09:39:38Z) - Investigating Human-Identifiable Features Hidden in Adversarial
Perturbations [54.39726653562144]
我々の研究では、最大5つの攻撃アルゴリズムを3つのデータセットにわたって探索する。
対人摂動における人間の識別可能な特徴を同定する。
画素レベルのアノテーションを用いて、そのような特徴を抽出し、ターゲットモデルに妥協する能力を実証する。
論文 参考訳(メタデータ) (2023-09-28T22:31:29Z) - Deviations in Representations Induced by Adversarial Attacks [0.0]
研究によると、ディープラーニングモデルは敵の攻撃に弱い。
この発見は研究の新たな方向性をもたらし、脆弱性のあるネットワークを攻撃して防御するためにアルゴリズムが開発された。
本稿では,敵攻撃によって引き起こされる表現の偏差を計測し,解析する手法を提案する。
論文 参考訳(メタデータ) (2022-11-07T17:40:08Z) - Improving Adversarial Robustness to Sensitivity and Invariance Attacks
with Deep Metric Learning [80.21709045433096]
対向ロバスト性の標準的な方法は、サンプルを最小に摂動させることによって作られたサンプルに対して防御する枠組みを仮定する。
距離学習を用いて、最適輸送問題として逆正則化をフレーム化する。
予備的な結果から, 変分摂動の規則化は, 変分防御と敏感防御の両方を改善することが示唆された。
論文 参考訳(メタデータ) (2022-11-04T13:54:02Z) - Identification of Attack-Specific Signatures in Adversarial Examples [62.17639067715379]
異なる攻撃アルゴリズムは, その効果だけでなく, 被害者の質的な影響も示している。
以上の結果から, 予測的対人攻撃は, 模擬モデルにおける成功率だけでなく, 被害者に対するより深い下流効果によって比較されるべきであることが示唆された。
論文 参考訳(メタデータ) (2021-10-13T15:40:48Z) - Learning to Detect Adversarial Examples Based on Class Scores [0.8411385346896413]
我々は、すでに訓練済みの分類モデルのクラススコアに基づいて、敵の攻撃検出についてより詳しく検討する。
本稿では,SVM(Support Vector Machine)をクラススコアで学習し,逆例を検出することを提案する。
提案手法は,実装が容易でありながら,既存の手法と比較して検出率の向上を図っている。
論文 参考訳(メタデータ) (2021-07-09T13:29:54Z) - On the Transferability of Adversarial Attacksagainst Neural Text
Classifier [121.6758865857686]
テキスト分類モデルの逆例の転送可能性について検討する。
本稿では,ほとんどすべての既存モデルを騙すために,敵の例を誘導できるモデル群を見つける遺伝的アルゴリズムを提案する。
これらの逆例からモデル診断に使用できる単語置換規則を導出する。
論文 参考訳(メタデータ) (2020-11-17T10:45:05Z) - Differentiable Language Model Adversarial Attacks on Categorical
Sequence Classifiers [0.0]
敵対的攻撃パラダイムは、ディープラーニングモデルの脆弱性の様々なシナリオを探索する。
本研究では,言語モデルの微調整を,敵対的攻撃のジェネレータとして利用する。
我々のモデルは、銀行取引、電子健康記録、NLPデータセットに関する多様なデータセットに対して機能する。
論文 参考訳(メタデータ) (2020-06-19T11:25:36Z) - Adversarial Feature Desensitization [12.401175943131268]
本稿では,ドメイン適応分野からの洞察を基盤とした,対向ロバスト性に対する新しいアプローチを提案する。
提案手法は,入力の逆方向の摂動に対して不変な特徴を学習することを目的として,AFD(Adversarial Feature Desensitization)と呼ばれる。
論文 参考訳(メタデータ) (2020-06-08T14:20:02Z) - Fundamental Tradeoffs between Invariance and Sensitivity to Adversarial
Perturbations [65.05561023880351]
敵の例は誤分類を引き起こすために作られた悪意のある入力である。
本稿では, 相補的障害モード, 不変性に基づく逆数例について検討する。
感度に基づく攻撃に対する防御は、不変性に基づく攻撃に対するモデルの精度を積極的に損なうことを示す。
論文 参考訳(メタデータ) (2020-02-11T18:50:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。