論文の概要: OrchJail: Jailbreaking Tool-Calling Text-to-Image Agents by Orchestration-Guided Fuzzing
- arxiv url: http://arxiv.org/abs/2605.07414v1
- Date: Fri, 08 May 2026 08:06:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.913358
- Title: OrchJail: Jailbreaking Tool-Calling Text-to-Image Agents by Orchestration-Guided Fuzzing
- Title(参考訳): OrchJail: オーケストレーションガイドファジングによるジェイルブレイクツールのテキスト・ツー・イメージエージェント
- Authors: Jianming Chen, Yawen Wang, Junjie Wang, Zhe Liu, Qing Wang, Fanjiang Xu,
- Abstract要約: OrchJailは、ツール呼び出しT2Iエージェントをジェイルブレイクするためのオーケストレーション誘導ファジリングフレームワークである。
当社の作業では、ツールオーケストレーションをクリティカルで、これまで探索されていなかったアタックサーフェスとして強調しています。
- 参考スコア(独自算出の注目度): 16.04943411061416
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-calling text-to-image (T2I) agents can plan and execute multi-step tool chains to accomplish complex generation and editing queries. However, this capability introduces a new safety attack surface: harmful outputs may arise from tool orchestration, where individually benign steps combine into unsafe results, making prompt-only jailbreak techniques insufficient. We present OrchJail, an orchestration-guided fuzzing framework for jailbreaking tool-calling T2I agents. Its core idea is to exploit high-risk tool-orchestration patterns: by learning from successful jailbreak tool-calling traces and their causal relationships to prompt wording, OrchJail directly guides the fuzzing search toward prompts that are more likely to trigger unsafe multi-step tool behaviors, rather than relying on surface-level textual perturbations. Extensive experiments demonstrate that OrchJail improves jailbreak effectiveness and efficiency across representative toolcalling T2I agents, achieving higher attack success rates, better image fidelity, and lower query costs, while remaining robust against common jailbreak defenses. Our work highlights tool orchestration as a critical, previously unexplored attack surface and provides a novel framework for uncovering safety risks in T2I agents.
- Abstract(参考訳): Tool-calling text-to-image (T2I)エージェントは、複雑な生成とクエリの編集を行うために、多段階のツールチェーンを計画、実行することができる。
有害なアウトプットはツールオーケストレーションによって発生し、個々の良質なステップが安全でない結果と組み合わせられ、即時のみのジェイルブレイク技術が不十分になる。
我々は、ツールコールT2Iエージェントをジェイルブレイクするためのオーケストレーション誘導ファジリングフレームワークOrchJailを紹介する。
ジェイルブレイクツールコールの成功したトレースとその因果関係から学習することで、OrchJailは、表面レベルのテキストの摂動に頼るのではなく、安全でないマルチステップツールの振る舞いをトリガーする可能性のあるプロンプトへ、ファジング検索を直接誘導する。
大規模な実験により、OrchJailはT2Iエージェントの代表的ツールコールにおけるジェイルブレイクの有効性と効率を改善し、攻撃の成功率の向上、画像の忠実性の向上、クエリコストの低減を実現し、一般的なジェイルブレイク防御に対して堅牢なままであることが示された。
当社の作業では,ツールオーケストレーションを重要かつ未調査な攻撃面として強調し,T2Iエージェントの安全性リスクを明らかにするための新たなフレームワークを提供する。
関連論文リスト
- A Causal Perspective for Enhancing Jailbreak Attack and Defense [29.669194815878768]
大規模言語モデルとデータ駆動因果探索を融合したフレームワークを提案する。
7つの言語モデルにまたがる35kのジェイルブレイク試行からなる包括的データセットを導入する。
分析の結果、"Positive Character"や"Number of Task Steps"といった特定の特徴が、jailbreakの直接的な因果的ドライバとして機能していることが判明した。
論文 参考訳(メタデータ) (2026-01-31T15:20:13Z) - Stand on The Shoulders of Giants: Building JailExpert from Previous Attack Experience [36.525169416008886]
大規模言語モデル(LLM)は、一定の安全性の制約の下で、ヒューマンアラインなコンテンツを生成する。
textbfJailExpertフレームワークは、初めてエクスペリエンス構造を形式的に表現したフレームワークである。
JailExpertは平均17%の攻撃成功率と2.7倍の改善を実現している。
論文 参考訳(メタデータ) (2025-08-25T14:16:30Z) - Anyone Can Jailbreak: Prompt-Based Attacks on LLMs and T2Is [8.214994509812724]
大規模言語モデル(LLM)とテキスト・トゥ・イメージ(T2I)システムは、ジェイルブレイクとして知られるプロンプトベースの攻撃に対して脆弱である。
本稿では,非専門家が安全メカニズムを確実に回避する方法について,システムスタイルの考察を行う。
本稿では,テキスト出力モデルとT2Iモデルの両方にまたがる,即時レベルのジェイルブレイク戦略の統一分類法を提案する。
論文 参考訳(メタデータ) (2025-07-29T13:55:23Z) - TombRaider: Entering the Vault of History to Jailbreak Large Language Models [20.21399377784112]
我々は,LLMの歴史的知識を保存,検索,活用する,新しいジェイルブレイク技術であるTombRaiderを紹介した。
TombRaiderを6つの人気モデルで評価した。
実験の結果、TombRaiderは最先端のジェイルブレイク技術より優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-27T14:12:07Z) - AgentHarm: A Benchmark for Measuring Harmfulness of LLM Agents [84.96249955105777]
LLMエージェントは誤用された場合、より大きなリスクを引き起こすが、その堅牢性は未発見のままである。
我々は, LLMエージェント誤用の研究を容易にするために, AgentHarmと呼ばれる新しいベンチマークを提案する。
主要なLLMは、ジェイルブレイクなしで悪意のあるエージェント要求に驚くほど準拠している。
論文 参考訳(メタデータ) (2024-10-11T17:39:22Z) - EnJa: Ensemble Jailbreak on Large Language Models [69.13666224876408]
大きな言語モデル(LLM)は、安全クリティカルなアプリケーションにますますデプロイされている。
LLMは、悪質なプロンプトを慎重に作り、ポリシーに違反するコンテンツを生成することで、まだジェイルブレイクされる可能性がある。
本稿では,プロンプトレベルのジェイルブレイクを用いて有害な命令を隠蔽し,グラデーションベースの攻撃で攻撃成功率を高め,テンプレートベースのコネクタを介して2種類のジェイルブレイク攻撃を接続する新しいEnJa攻撃を提案する。
論文 参考訳(メタデータ) (2024-08-07T07:46:08Z) - Fuzz-Testing Meets LLM-Based Agents: An Automated and Efficient Framework for Jailbreaking Text-To-Image Generation Models [15.582860145268553]
JailFuzzerは、大きな言語モデル(LLM)エージェントによって駆動される新しいファジングフレームワークである。
自然かつ意味的に一貫性のあるプロンプトを生成し、従来の防御による検出の可能性を減らす。
クエリオーバーヘッドを最小限に抑えたジェイルブレイク攻撃で高い成功率を達成する。
論文 参考訳(メタデータ) (2024-08-01T12:54:46Z) - WildTeaming at Scale: From In-the-Wild Jailbreaks to (Adversarially) Safer Language Models [66.34505141027624]
我々は、WildTeamingを紹介した。これは自動LLM安全リチームフレームワークで、Wild-Chatbotインタラクションをマイニングし、新しいジェイルブレイク戦術の5.7Kのユニークなクラスタを発見する。
WildTeamingは、未確認のフロンティアLSMの脆弱性を明らかにし、最大4.6倍の多様性と敵の攻撃に成功した。
論文 参考訳(メタデータ) (2024-06-26T17:31:22Z) - Automatic Jailbreaking of the Text-to-Image Generative AI Systems [76.9697122883554]
本稿では,ChatGPT,Copilot,Geminiなどの商用T2I生成システムの安全性について,ナイーブプロンプトによる著作権侵害について検討する。
安全ガードをバイパスするプロンプトを生成するT2I生成システムに対して,より強力な自動脱獄パイプラインを提案する。
当社のフレームワークは,ChatGPTを11.0%のブロックレートでジェイルブレイクし,その76%で著作権コンテンツを生成する。
論文 参考訳(メタデータ) (2024-05-26T13:32:24Z) - AutoDAN: Generating Stealthy Jailbreak Prompts on Aligned Large Language Models [54.95912006700379]
本稿では,大規模言語モデルに対する新たなジェイルブレイク攻撃であるAutoDANを紹介する。
AutoDANは、慎重に設計された階層型遺伝的アルゴリズムによって、ステルスなジェイルブレイクプロンプトを自動的に生成できる。
論文 参考訳(メタデータ) (2023-10-03T19:44:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。