論文の概要: DarkLLM: Learning Language-Driven Adversarial Attacks with Large Language Models
- arxiv url: http://arxiv.org/abs/2605.18868v1
- Date: Fri, 15 May 2026 12:28:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.75449
- Title: DarkLLM: Learning Language-Driven Adversarial Attacks with Large Language Models
- Title(参考訳): DarkLLM: 大規模言語モデルによる言語駆動型敵攻撃の学習
- Authors: Ye Sun, Xin Wang, Jiaming Zhang, Yifeng Gao, Yixu Wang, Yifan Ding, Qixian Zhang, Henghui Ding, Xingjun Ma, Yu-Gang Jiang,
- Abstract要約: 我々は、自然言語攻撃命令を潜在攻撃ベクトルに変換するためにLLMを訓練する新しい攻撃フレームワークであるDarkLLMを紹介する。
自然言語の命令チューニングを活用することで、DarkLLMは単一のフレームワーク内でターゲット、未ターゲット、セグメンテーション、マルチモデルアタックを統一する。
1Bパラメータしか持たないDarkLLMは攻撃者の指示に従い、CLIP、SAM、フロンティアのLLMに対して非常に効果的な攻撃を発生させることができる。
- 参考スコア(独自算出の注目度): 88.47231141694805
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While vision and multimodal foundation models underpin critical tasks from perception to complex reasoning, they remain highly vulnerable to adversarial attacks. However, traditional adversarial attacks are typically limited to single, predefined objectives, tightly coupling each attack to a specific model or task, which restricts their scalability and flexibility in real-world scenarios. In this work, we present DarkLLM, a novel attack framework that trains an LLM to translate natural-language attack instructions into latent attack vectors, which are then decoded into visual adversarial perturbations. By leveraging natural-language instruction tuning, DarkLLM not only unifies targeted, untargeted, segmentation, and multi-model attacks within a single framework, but also achieves flexible and controllable adversarial generation, enabling each instruction to produce a perturbation that induces desired behaviors across heterogeneous models. Through extensive experiments across 4 tasks, 13 datasets, and 15 models, we demonstrate that DarkLLM with only 1B parameters can follow attacker instructions and generate highly effective attacks against CLIP, SAM, and frontier LLMs, revealing a systemic vulnerability in modern foundation models.
- Abstract(参考訳): 視覚とマルチモーダル基盤モデルは、知覚から複雑な推論まで重要なタスクを支えているが、敵の攻撃に対して非常に脆弱なままである。
しかし、従来の敵攻撃は、通常、特定のモデルやタスクにそれぞれの攻撃を密に結合し、現実のシナリオにおけるスケーラビリティと柔軟性を制限する、単一の目標に限られる。
本研究では,LLMを学習して自然言語攻撃命令を潜時攻撃ベクトルに変換する新たな攻撃フレームワークであるDarkLLMについて述べる。
自然言語の命令チューニングを活用することで、DarkLLMは単一のフレームワーク内でターゲット、未ターゲット、セグメンテーション、マルチモデルアタックを統一するだけでなく、フレキシブルで制御可能な逆生成を実現し、不均一なモデル間で望ましい振る舞いを誘導する摂動を生成する。
4つのタスク、13のデータセット、および15のモデルにわたる広範な実験を通して、DarkLLMは攻撃的命令に従い、CLIP、SAM、フロンティアのLSMに対して非常に効果的な攻撃を発生し、現代の基盤モデルにシステム的脆弱性が現れることを示した。
関連論文リスト
- MTAttack: Multi-Target Backdoor Attacks against Large Vision-Language Models [52.37749859972453]
我々は,LVLMにおける複数のトリガターゲットマッピングを正確に行うための,最初のマルチターゲットバックドアアタックフレームワークであるMTAttackを提案する。
人気のあるベンチマークの実験では、マルチターゲット攻撃に対するMTAttackの成功率が高いことが示されている。
我々の攻撃は、データセット間での強力な一般化性と、バックドア防衛戦略に対する堅牢性を示す。
論文 参考訳(メタデータ) (2025-11-13T09:00:21Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Strategize Globally, Adapt Locally: A Multi-Turn Red Teaming Agent with Dual-Level Learning [39.931442440365444]
AlgNameは、補完的な学習次元を通じて高度な人間の攻撃者をエミュレートする、新しい赤チームエージェントである。
AlgNameは、エージェントが新しいジェイルブレイク戦術を特定し、ゴールベースの戦術選択フレームワークを開発し、選択した戦術の迅速な定式化を洗練できるようにする。
JailbreakBenchに関する実証的な評価は、我々のフレームワークの優れた性能を示し、GPT-3.5-Turbo と Llama-3.1-70B に対する攻撃成功率の90%以上を、5つの会話ターンで達成した。
論文 参考訳(メタデータ) (2025-04-02T01:06:19Z) - AnyAttack: Towards Large-scale Self-supervised Adversarial Attacks on Vision-language Models [39.34959092321762]
VLM(Vision-Language Models)は、画像ベースの敵攻撃に対して脆弱である。
我々は、従来の攻撃の制限を超越した自己教師型フレームワークであるAnyAttackを紹介する。
論文 参考訳(メタデータ) (2024-10-07T09:45:18Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Visual Adversarial Examples Jailbreak Aligned Large Language Models [66.53468356460365]
視覚入力の連続的かつ高次元的な性質は、敵対的攻撃に対する弱いリンクであることを示す。
我々は、視力統合されたLLMの安全ガードレールを回避するために、視覚的敵の例を利用する。
本研究は,マルチモダリティの追求に伴う敵のエスカレーションリスクを浮き彫りにする。
論文 参考訳(メタデータ) (2023-06-22T22:13:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。