論文の概要: Text Adversarial Attacks with Dynamic Outputs
- arxiv url: http://arxiv.org/abs/2509.22393v1
- Date: Fri, 26 Sep 2025 14:21:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 20:57:54.496163
- Title: Text Adversarial Attacks with Dynamic Outputs
- Title(参考訳): 動的出力によるテキスト・アタック
- Authors: Wenqiang Wang, Siyuan Liang, Xiao Yan, Xiaochun Cao,
- Abstract要約: テキスト逆攻撃法は典型的には、固定数の出力ラベルと予め定義されたラベル空間を持つ静的シナリオのために設計される。
本稿では,クラスタリングに基づく代理モデルトレーニング手法を用いたテキスト動的出力攻撃(TDOA)手法を提案する。
テキスト毎の単一のクエリで、TDOAは最大攻撃成功率は50.81%に達する。
我々は TDOA を生成環境に拡張し,0.64 RDBLEU と 0.62 RDchrF の先行結果を上回った。
- 参考スコア(独自算出の注目度): 63.25160580569707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text adversarial attack methods are typically designed for static scenarios with fixed numbers of output labels and a predefined label space, relying on extensive querying of the victim model (query-based attacks) or the surrogate model (transfer-based attacks). To address this gap, we introduce the Textual Dynamic Outputs Attack (TDOA) method, which employs a clustering-based surrogate model training approach to convert the dynamic-output scenario into a static single-output scenario. To improve attack effectiveness, we propose the farthest-label targeted attack strategy, which selects adversarial vectors that deviate most from the model's coarse-grained labels, thereby maximizing disruption. We extensively evaluate TDOA on four datasets and eight victim models (e.g., ChatGPT-4o, ChatGPT-4.1), showing its effectiveness in crafting adversarial examples and its strong potential to compromise large language models with limited access. With a single query per text, TDOA achieves a maximum attack success rate of 50.81\%. Additionally, we find that TDOA also achieves state-of-the-art performance in conventional static output scenarios, reaching a maximum ASR of 82.68\%. Meanwhile, by conceptualizing translation tasks as classification problems with unbounded output spaces, we extend the TDOA framework to generative settings, surpassing prior results by up to 0.64 RDBLEU and 0.62 RDchrF.
- Abstract(参考訳): テキスト逆攻撃法は典型的には、固定数の出力ラベルと予め定義されたラベル空間を持つ静的シナリオのために設計され、被害者モデル(クエリベースの攻撃)や代理モデル(トランスファーベースの攻撃)の広範囲なクエリに依存する。
このギャップに対処するために,クラスタリングに基づく代理モデルトレーニング手法を用いて,動的出力シナリオを静的な単一出力シナリオに変換するTextual Dynamic Outputs Attack (TDOA) 手法を提案する。
攻撃効率を向上させるために,モデルの粗粒度ラベルからほとんど逸脱する逆ベクトルを選択し,破壊を最大化する最遠ラベル目標攻撃戦略を提案する。
4つのデータセットと8つの犠牲者モデル(例えば、ChatGPT-4o、ChatGPT-4.1)でTDOAを広範囲に評価し、敵のサンプルの作成におけるTDOAの有効性と、アクセス制限による大きな言語モデルへの侵入の可能性を示した。
テキスト毎の単一のクエリで、TDOAは最大攻撃成功率50.81\%を達成する。
さらに、TDOAは従来の静的な出力シナリオで最先端のパフォーマンスも達成し、最大 ASR 82.68\% に達することが判明した。
一方、非有界な出力空間の分類問題として翻訳タスクを概念化することにより、TDOAフレームワークを生成環境に拡張し、0.64 RDBLEUと0.62 RDchrFの事前結果を上回った。
関連論文リスト
- No Query, No Access [50.18709429731724]
被害者のテキストのみを使用して動作する textbfVictim Data-based Adrial Attack (VDBA) を導入する。
被害者モデルへのアクセスを防止するため、公開されている事前トレーニングモデルとクラスタリングメソッドを備えたシャドウデータセットを作成します。
EmotionとSST5データセットの実験によると、VDBAは最先端の手法より優れており、ASRの改善は52.08%である。
論文 参考訳(メタデータ) (2025-05-12T06:19:59Z) - Advancing Generalized Transfer Attack with Initialization Derived Bilevel Optimization and Dynamic Sequence Truncation [49.480978190805125]
転送攻撃はブラックボックスアプリケーションに大きな関心を惹きつける。
既存の作業は、本質的に単一のレベルの目的 w.r.t. シュロゲートモデルを直接最適化する。
本稿では,上位レベル(UL)と下位レベル(LL)のサロゲート攻撃とのネスト関係を明示的に再構築する2レベル最適化手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T07:45:27Z) - Transferable Attack for Semantic Segmentation [59.17710830038692]
敵が攻撃し、ソースモデルから生成された敵の例がターゲットモデルを攻撃するのに失敗するのを観察します。
本研究では, セマンティックセグメンテーションのためのアンサンブルアタックを提案する。
論文 参考訳(メタデータ) (2023-07-31T11:05:55Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z) - Generating Natural Language Attacks in a Hard Label Black Box Setting [3.52359746858894]
我々は、ハードラベルブラックボックス設定で自然言語処理モデルを攻撃する重要かつ困難なタスクを研究します。
本研究では, テキスト分類と関連タスクにおいて, 質の高い対比例を作成する意思決定に基づく攻撃戦略を提案する。
論文 参考訳(メタデータ) (2020-12-29T22:01:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。