論文の概要: Preserving Semantics in Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2211.04205v1
- Date: Tue, 8 Nov 2022 12:40:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-09 15:17:26.035331
- Title: Preserving Semantics in Textual Adversarial Attacks
- Title(参考訳): テキスト・アタックにおけるセマンティクスの保存
- Authors: David Herel and Hugo Cisneros and Tomas Mikolov
- Abstract要約: NLPにおける敵対的攻撃は、私たちが言語モデルを見る方法に挑戦する。
この問題は、逆例の類似性を決定するために使用されるテキストエンコーダにあることを示す。
我々はSemantics-Preserving-Encoder (SPE)と呼ばれるシンプルで完全に教師された文埋め込み技術を導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Adversarial attacks in NLP challenge the way we look at language models. The
goal of this kind of adversarial attack is to modify the input text to fool a
classifier while maintaining the original meaning of the text. Although most
existing adversarial attacks claim to fulfill the constraint of semantics
preservation, careful scrutiny shows otherwise. We show that the problem lies
in the text encoders used to determine the similarity of adversarial examples,
specifically in the way they are trained. Unsupervised training methods make
these encoders more susceptible to problems with antonym recognition. To
overcome this, we introduce a simple, fully supervised sentence embedding
technique called Semantics-Preserving-Encoder (SPE). The results show that our
solution minimizes the variation in the meaning of the adversarial examples
generated. It also significantly improves the overall quality of adversarial
examples, as confirmed by human evaluators. Furthermore, it can be used as a
component in any existing attack to speed up its execution while maintaining
similar attack success.
- Abstract(参考訳): nlpの逆攻撃は、言語モデルに対する考え方に挑戦する。
この種の敵対攻撃の目標は、テキストの本来の意味を維持しながら、入力テキストを変更して分類器を騙すことである。
既存のほとんどの敵攻撃は意味論保存の制約を満たすと主張しているが、注意深い精査はそれ以外は示さない。
問題となるのは,テキストエンコーダが敵の類似性,特にその訓練方法の類似性を決定することにある。
教師なしの訓練方法により、これらのエンコーダは、アントロニム認識の問題により敏感になる。
そこで本研究では,spe(semantics-preserving-encoder)と呼ばれる文埋め込み手法を提案する。
その結果,提案手法は,生成した逆例の意味の変化を最小限に抑えることができた。
また、人間の評価者によって確認されるように、敵の例の全体的な品質も大幅に向上する。
さらに、同様の攻撃の成功を維持しながら、実行をスピードアップするために、既存の攻撃のコンポーネントとして使用できる。
関連論文リスト
- Automated Adversarial Discovery for Safety Classifiers [10.61889194493287]
安全分類器の自動対向探索のタスクを形式化する。
The CivilComments toxicity taskにおける既存の攻撃生成手法の評価は,その限界を明らかにしている。
我々の最も優れたプロンプトベースの手法でさえ、目に見えない攻撃の被害次元に対する新たな攻撃が、その5%しか成功していない。
論文 参考訳(メタデータ) (2024-06-24T19:45:12Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Grey-box Adversarial Attack And Defence For Sentiment Classification [19.466940655682727]
感情分類のためのグレーボックスの敵対攻撃と防御フレームワークを紹介します。
敵攻撃と防御のための識別性, ラベル保存, 入力再構成の課題を, 1つの統合された枠組みで解決する。
論文 参考訳(メタデータ) (2021-03-22T04:05:17Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。