論文の概要: Cross-Entropy Attacks to Language Models via Rare Event Simulation
- arxiv url: http://arxiv.org/abs/2501.11852v1
- Date: Tue, 21 Jan 2025 03:08:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:26:01.101826
- Title: Cross-Entropy Attacks to Language Models via Rare Event Simulation
- Title(参考訳): 希少事象シミュレーションによる言語モデルへのクロスエントロピー攻撃
- Authors: Mingze Ni, Yongshun Gong, Wei Liu,
- Abstract要約: ブラックボックスのテキストの敵対攻撃は、モデル情報の欠如と、テキストの離散的で非微分不可能な性質のために困難である。
既存の手法では、単語の正当性ランキングの非効率な最適化のために攻撃性能が制限されているため、異なるモデルを攻撃するための汎用性に欠けることが多い。
本稿では,テキスト・エントロピー・アタック(CEA)と呼ばれる,テキスト・エントロピー・アタックに対する新たなアプローチを提案する。
- 参考スコア(独自算出の注目度): 11.066121690862866
- License:
- Abstract: Black-box textual adversarial attacks are challenging due to the lack of model information and the discrete, non-differentiable nature of text. Existing methods often lack versatility for attacking different models, suffer from limited attacking performance due to the inefficient optimization with word saliency ranking, and frequently sacrifice semantic integrity to achieve better attack outcomes. This paper introduces a novel approach to textual adversarial attacks, which we call Cross-Entropy Attacks (CEA), that uses Cross-Entropy optimization to address the above issues. Our CEA approach defines adversarial objectives for both soft-label and hard-label settings and employs CE optimization to identify optimal replacements. Through extensive experiments on document classification and language translation problems, we demonstrate that our attack method excels in terms of attacking performance, imperceptibility, and sentence quality.
- Abstract(参考訳): ブラックボックスのテキストの敵対攻撃は、モデル情報の欠如と、テキストの離散的で非微分不可能な性質のために困難である。
既存の手法は、異なるモデルを攻撃するための汎用性に欠けることが多く、単語のサリエンシランキングの非効率な最適化による攻撃性能の制限に悩まされ、より優れた攻撃結果を達成するためにセマンティックセマンティクスを犠牲にすることが多い。
本稿では,テキスト・エントロピー・アタック(CEA)と呼ばれる,テキスト・エントロピー・アタックに対する新たなアプローチを提案する。
我々のCEAアプローチでは,ソフトラベルとハードラベルの両方の設定の対向目的を定義し,CE最適化を用いて最適な代替品を同定する。
文書分類と言語翻訳問題に関する広範な実験を通じて,攻撃方法が攻撃性能,非受容性,文質の面で優れていることを示す。
関連論文リスト
- Target-driven Attack for Large Language Models [14.784132523066567]
クリーンテキストと攻撃テキストの条件付き確率のKL差を最大化するターゲット駆動型ブラックボックス攻撃法を提案する。
複数の大規模言語モデルとデータセットの実験結果から,攻撃手法の有効性が示された。
論文 参考訳(メタデータ) (2024-11-09T15:59:59Z) - MirrorCheck: Efficient Adversarial Defense for Vision-Language Models [55.73581212134293]
本稿では,視覚言語モデルにおける対角的サンプル検出のための,新しい,しかしエレガントなアプローチを提案する。
本手法は,テキスト・トゥ・イメージ(T2I)モデルを用いて,ターゲットVLMが生成したキャプションに基づいて画像を生成する。
異なるデータセットで実施した経験的評価により,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-06-13T15:55:04Z) - Mutual-modality Adversarial Attack with Semantic Perturbation [81.66172089175346]
本稿では,相互モダリティ最適化スキームにおける敵攻撃を生成する新しい手法を提案する。
我々の手法は最先端の攻撃方法より優れており、プラグイン・アンド・プレイ・ソリューションとして容易にデプロイできる。
論文 参考訳(メタデータ) (2023-12-20T05:06:01Z) - SA-Attack: Improving Adversarial Transferability of Vision-Language
Pre-training Models via Self-Augmentation [56.622250514119294]
ホワイトボックスの敵攻撃とは対照的に、転送攻撃は現実世界のシナリオをより反映している。
本稿では,SA-Attackと呼ばれる自己拡張型転送攻撃手法を提案する。
論文 参考訳(メタデータ) (2023-12-08T09:08:50Z) - Machine Translation Models Stand Strong in the Face of Adversarial
Attacks [2.6862667248315386]
本研究は,シークエンス・ツー・シークエンス(seq2seq)モデル,特に機械翻訳モデルに対する敵攻撃の影響に焦点を当てた。
我々は、基本的なテキスト摂動と、勾配に基づく攻撃のようなより高度な戦略を取り入れたアルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-09-10T11:22:59Z) - A Classification-Guided Approach for Adversarial Attacks against Neural
Machine Translation [66.58025084857556]
我々は,分類器によって誘導されるNMTシステムに対する新たな敵攻撃フレームワークであるACTを紹介する。
本攻撃では,翻訳が本来の翻訳と異なるクラスに属する意味保存的敵の例を作成することを目的としている。
攻撃に対するNMTモデルの堅牢性を評価するため,既存のブラックボックス単語置換攻撃の強化を提案する。
論文 参考訳(メタデータ) (2023-08-29T12:12:53Z) - Phrase-level Textual Adversarial Attack with Label Preservation [34.42846737465045]
本稿では,フレーズレベルの摂動を通じて対数サンプルを生成するPhrase-Level Textual Adrial aTtack (PLAT)を提案する。
PLATは強力なベースラインよりも攻撃効率が優れ、ラベルの一貫性も優れている。
論文 参考訳(メタデータ) (2022-05-22T02:22:38Z) - Learning-based Hybrid Local Search for the Hard-label Textual Attack [53.92227690452377]
我々は,攻撃者が予測ラベルにのみアクセス可能な,滅多に調査されていないが厳格な設定,すなわちハードラベル攻撃を考える。
そこで本研究では,Learning-based Hybrid Local Search (LHLS)アルゴリズムという,新たなハードラベル攻撃を提案する。
我々のLHLSは、攻撃性能と敵の品質に関する既存のハードラベル攻撃を著しく上回っている。
論文 参考訳(メタデータ) (2022-01-20T14:16:07Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。