論文の概要: Preserving Semantics in Textual Adversarial Attacks
- arxiv url: http://arxiv.org/abs/2211.04205v2
- Date: Thu, 5 Oct 2023 20:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 16:00:23.802702
- Title: Preserving Semantics in Textual Adversarial Attacks
- Title(参考訳): テキスト・アタックにおけるセマンティクスの保存
- Authors: David Herel and Hugo Cisneros and Tomas Mikolov
- Abstract要約: 敵の攻撃によって生じる敵の事例の最大70%は、意味論を保存していないため破棄されるべきである。
SPE(Semantics-Preserving-Encoder)と呼ばれる新しい完全教師付き文埋め込み手法を提案する。
本手法は, 敵攻撃における既存の文エンコーダよりも1.2倍から5.1倍優れた実攻撃成功率を達成している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The growth of hateful online content, or hate speech, has been associated
with a global increase in violent crimes against minorities [23]. Harmful
online content can be produced easily, automatically and anonymously. Even
though, some form of auto-detection is already achieved through text
classifiers in NLP, they can be fooled by adversarial attacks. To strengthen
existing systems and stay ahead of attackers, we need better adversarial
attacks. In this paper, we show that up to 70% of adversarial examples
generated by adversarial attacks should be discarded because they do not
preserve semantics. We address this core weakness and propose a new, fully
supervised sentence embedding technique called Semantics-Preserving-Encoder
(SPE). Our method outperforms existing sentence encoders used in adversarial
attacks by achieving 1.2x - 5.1x better real attack success rate. We release
our code as a plugin that can be used in any existing adversarial attack to
improve its quality and speed up its execution.
- Abstract(参考訳): ヘイトフルなオンラインコンテンツ(ヘイトスピーチ)の成長は、少数民族に対する暴力犯罪が世界的に増加している[23]。
有害なオンラインコンテンツは、自動的に、匿名で簡単に作成できる。
NLPのテキスト分類器によって何らかの自動検出がすでに達成されているが、敵攻撃によって騙されることがある。
既存のシステムを強化し、攻撃者に先んじるためには、より良い敵攻撃が必要である。
本稿では,敵対的攻撃によって生じる敵の事例の最大70%は,意味を保たないために破棄されるべきであることを示す。
この弱点に対処し,SPE(Semantics-Preserving-Encoder)と呼ばれる文埋め込み手法を提案する。
本手法は,既存の文エンコーダを1.2倍から5.1倍の実際の攻撃成功率で上回る。
既存の敵攻撃で使用可能なプラグインとしてコードをリリースし、その品質を改善し、実行を高速化します。
関連論文リスト
- Automated Adversarial Discovery for Safety Classifiers [10.61889194493287]
安全分類器の自動対向探索のタスクを形式化する。
The CivilComments toxicity taskにおける既存の攻撃生成手法の評価は,その限界を明らかにしている。
我々の最も優れたプロンプトベースの手法でさえ、目に見えない攻撃の被害次元に対する新たな攻撃が、その5%しか成功していない。
論文 参考訳(メタデータ) (2024-06-24T19:45:12Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - Defending Large Language Models against Jailbreak Attacks via Semantic
Smoothing [107.97160023681184]
適応型大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。
提案するSEMANTICSMOOTHは,与えられた入力プロンプトのセマンティック変換されたコピーの予測を集約するスムージングベースのディフェンスである。
論文 参考訳(メタデータ) (2024-02-25T20:36:03Z) - ASETF: A Novel Method for Jailbreak Attack on LLMs through Translate Suffix Embeddings [58.82536530615557]
本稿では, 連続的な逆接接尾辞埋め込みを一貫性のある, 理解可能なテキストに変換するために, ASETF (Adversarial Suffix Embedding Translation Framework) を提案する。
本手法は,逆接接尾辞の計算時間を著しく短縮し,既存の手法よりもはるかに優れた攻撃成功率を実現する。
論文 参考訳(メタデータ) (2024-02-25T06:46:27Z) - AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large
Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。
最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。
両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文 参考訳(メタデータ) (2023-10-23T17:46:07Z) - Adversarial Text Normalization [2.9434930072968584]
逆テキスト正規化器は、少ない計算オーバーヘッドで攻撃されたコンテンツのベースライン性能を回復する。
テキスト正規化は文字レベルの攻撃に対してタスクに依存しない防御を提供する。
論文 参考訳(メタデータ) (2022-06-08T19:44:03Z) - Don't sweat the small stuff, classify the rest: Sample Shielding to
protect text classifiers against adversarial attacks [2.512827436728378]
ディープラーニング(DL)はテキスト分類に広く使われている。
攻撃者は、元の意味をそのままに保ちながら、分類器を誤解させる方法でテキストを変更する。
サンプルシールドという,新規で直感的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2022-05-03T18:24:20Z) - Fixed Points in Cyber Space: Rethinking Optimal Evasion Attacks in the
Age of AI-NIDS [70.60975663021952]
ネットワーク分類器に対するブラックボックス攻撃について検討する。
我々は、アタッカー・ディフェンダーの固定点がそれ自体、複雑な位相遷移を持つ一般サムゲームであると主張する。
攻撃防御力学の研究には連続的な学習手法が必要であることを示す。
論文 参考訳(メタデータ) (2021-11-23T23:42:16Z) - Grey-box Adversarial Attack And Defence For Sentiment Classification [19.466940655682727]
感情分類のためのグレーボックスの敵対攻撃と防御フレームワークを紹介します。
敵攻撃と防御のための識別性, ラベル保存, 入力再構成の課題を, 1つの統合された枠組みで解決する。
論文 参考訳(メタデータ) (2021-03-22T04:05:17Z) - Universal Adversarial Attacks with Natural Triggers for Text
Classification [30.74579821832117]
我々は、自然の英語のフレーズに近づきながら、分類システムを混乱させる敵攻撃を開発する。
我々の攻撃は、従来のモデルよりも識別が困難でありながら、分類タスクのモデル精度を効果的に低下させる。
論文 参考訳(メタデータ) (2020-05-01T01:58:24Z) - Deflecting Adversarial Attacks [94.85315681223702]
我々は、攻撃者が攻撃対象クラスに似た入力を生成することによって、敵攻撃を「防御」するこのサイクルを終わらせる新しいアプローチを提案する。
本稿ではまず,3つの検出機構を組み合わせたカプセルネットワークに基づくより強力な防御手法を提案する。
論文 参考訳(メタデータ) (2020-02-18T06:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。