論文の概要: Multi-task Adversarial Attacks against Black-box Model with Few-shot Queries
- arxiv url: http://arxiv.org/abs/2508.10039v1
- Date: Sun, 10 Aug 2025 12:46:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.039099
- Title: Multi-task Adversarial Attacks against Black-box Model with Few-shot Queries
- Title(参考訳): 少数ショットクエリによるブラックボックスモデルに対するマルチタスク対応攻撃
- Authors: Wenqiang Wang, Yan Xiao, Hao Lin, Yangshijie Zhang, Xiaochun Cao,
- Abstract要約: textbfCluster と textbfEnsemble textbfMulti-task Text Adrial textbfAttack (textbfCEMA) を提案する。
CEMAは、テキスト分類のためにtextitplug-and-play方法で訓練されたtextitdeepレベルの代替モデルを使用することで、複雑なマルチタスクシナリオを単純化し、被害者モデルを模倣することなく攻撃を可能にする。
- 参考スコア(独自算出の注目度): 45.109208326366605
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Current multi-task adversarial text attacks rely on abundant access to shared internal features and numerous queries, often limited to a single task type. As a result, these attacks are less effective against practical scenarios involving black-box feedback APIs, limited queries, or multiple task types. To bridge this gap, we propose \textbf{C}luster and \textbf{E}nsemble \textbf{M}ulti-task Text Adversarial \textbf{A}ttack (\textbf{CEMA}), an effective black-box attack that exploits the transferability of adversarial texts across different tasks. CEMA simplifies complex multi-task scenarios by using a \textit{deep-level substitute model} trained in a \textit{plug-and-play} manner for text classification, enabling attacks without mimicking the victim model. This approach requires only a few queries for training, converting multi-task attacks into classification attacks and allowing attacks across various tasks. CEMA generates multiple adversarial candidates using different text classification methods and selects the one that most effectively attacks substitute models. In experiments involving multi-task models with two, three, or six tasks--spanning classification, translation, summarization, and text-to-image generation--CEMA demonstrates significant attack success with as few as 100 queries. Furthermore, CEMA can target commercial APIs (e.g., Baidu and Google Translate), large language models (e.g., ChatGPT 4o), and image-generation models (e.g., Stable Diffusion V2), showcasing its versatility and effectiveness in real-world applications.
- Abstract(参考訳): 現在のマルチタスクの敵対的テキスト攻撃は、共有された内部機能や多数のクエリへの豊富なアクセスに依存しており、しばしば単一のタスクタイプに制限される。
その結果、これらの攻撃はブラックボックスフィードバックAPI、限られたクエリ、複数のタスクタイプを含む実践的なシナリオに対して効果が低い。
このギャップを埋めるために、異なるタスクをまたいだ相手テキストの転送性を利用する効果的なブラックボックス攻撃である、 \textbf{C}luster と \textbf{E}nsemble \textbf{M}ulti-task Text Adversarial \textbf{A}ttack (\textbf{CEMA})を提案する。
CEMAは、テキスト分類のために \textit{plug-and-play} で訓練された \textit{deep-level alternative model} を使用して、複雑なマルチタスクシナリオを単純化する。
このアプローチでは、トレーニングやマルチタスクアタックの分類攻撃への変換、さまざまなタスクでのアタックの許容など、ほんの数クエリしか必要としない。
CEMAは、異なるテキスト分類法を用いて複数の敵候補を生成し、置換モデルを最も効果的に攻撃する候補を選択する。
2つ、3つ、6つのタスクを持つマルチタスクモデルを含む実験では、スパンニング分類、翻訳、要約、テキスト・ツー・イメージ・ジェネレーション--CEMAは100のクエリで大きな攻撃成功を示す。
さらに、CEMAは商用API(例えばBaiduとGoogle Translate)、大規模言語モデル(例えばChatGPT 4o)、画像生成モデル(例えばStable Diffusion V2)をターゲットにして、現実世界のアプリケーションにおけるその汎用性と有効性を示している。
関連論文リスト
- Benchmarking Unified Face Attack Detection via Hierarchical Prompt Tuning [58.16354555208417]
PADとFFDはそれぞれ物理メディアベースのプレゼンテーションアタックとデジタル編集ベースのDeepFakeから顔データを保護するために提案されている。
これら2つのカテゴリの攻撃を同時に処理する統一顔攻撃検出モデルがないことは、主に2つの要因に起因する。
本稿では,異なる意味空間から複数の分類基準を適応的に探索する,視覚言語モデルに基づく階層型プロンプトチューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-19T16:35:45Z) - Reason2Attack: Jailbreaking Text-to-Image Models via LLM Reasoning [34.73320827764541]
テキスト・トゥ・イメージ(T2I)モデルは一般的に、機密画像の発生を防ぐために安全フィルタを配置する。
最近のジェイルブレイク攻撃手法は、LSMが敵のプロンプトを生成するように手動で設計する。
本稿では,LLMの推論能力を高めることを目的としたReason2Attack(R2A)を提案する。
論文 参考訳(メタデータ) (2025-03-23T08:40:39Z) - `Do as I say not as I do': A Semi-Automated Approach for Jailbreak Prompt Attack against Multimodal LLMs [33.49407213040455]
マルチモーダル大言語モデル(LLM)に対する最初の音声ベースのジェイルブレイク攻撃を導入する。
本稿では,不許可なプロンプトを,良心的かつ物語駆動的なプロンプトによって側面に配置する,新たな戦略を提案する。
我々は、Flanking Attackは最先端のLLMを操作でき、不整合および禁止された出力を生成することを実証する。
論文 参考訳(メタデータ) (2025-02-02T10:05:08Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Multi-Task Models Adversarial Attacks [25.834775498006657]
マルチタスク学習はマルチタスクモデルとして知られる特異モデルを開発し、複数のタスクを同時に実行する。
シングルタスクモデルのセキュリティは徹底的に研究されているが、マルチタスクモデルはいくつかの重要なセキュリティ問題を引き起こす。
本稿では,これらの質問に対して,詳細な分析と厳密な実験を通じて対処する。
論文 参考訳(メタデータ) (2023-05-20T03:07:43Z) - Two-in-One: A Model Hijacking Attack Against Text Generation Models [19.826236952700256]
我々は,異なるテキスト分類タスクを複数の世代にハイジャックできる新しいモデルハイジャック攻撃であるDittoを提案する。
提案手法は,Dittoを用いてテキスト生成モデルをハイジャックし,その利便性を損なうことなく実現可能であることを示す。
論文 参考訳(メタデータ) (2023-05-12T12:13:27Z) - Towards Variable-Length Textual Adversarial Attacks [68.27995111870712]
データの離散性のため、自然言語処理タスクに対してテキストによる敵意攻撃を行うことは非自明である。
本稿では,可変長テキスト対比攻撃(VL-Attack)を提案する。
本手法は、iwslt14ドイツ語英訳で3,18$ bleuスコアを達成でき、ベースラインモデルより1.47$改善できる。
論文 参考訳(メタデータ) (2021-04-16T14:37:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。