論文の概要: STARE: Step-wise Temporal Alignment and Red-teaming Engine for Multi-modal Toxicity Attack
- arxiv url: http://arxiv.org/abs/2605.00699v3
- Date: Thu, 07 May 2026 06:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 17:36:05.865644
- Title: STARE: Step-wise Temporal Alignment and Red-teaming Engine for Multi-modal Toxicity Attack
- Title(参考訳): STARE:マルチモーダル毒性攻撃のためのステップワイド時間アライメントと赤チームエンジン
- Authors: Xutao Mao, Liangjie Zhao, Tao Liu, Xiang Zheng, Hongying Zan, Cong Wang,
- Abstract要約: 敵画像テキスト入力が有害な出力を引き起こす脆弱性を特定するには、赤チームビジョンランゲージモデルが不可欠である。
STARE は階層的な強化学習フレームワークであり,車軸自体を攻撃面として扱う。
STAREは、最先端のブラックボックスとホワイトボックスのベースラインよりも、攻撃成功率が68%向上していることを示す。
- 参考スコア(独自算出の注目度): 10.532127028931058
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Red-teaming Vision-Language Models is essential for identifying vulnerabilities where adversarial image-text inputs trigger toxic outputs. Existing approaches treat image generation as a black box, returning only terminal toxicity scores and leaving open the question of when and how toxic semantics emerge during multi-step synthesis. We introduce STARE, a hierarchical reinforcement learning framework that treats the denoising trajectory itself as the attack surface, under a direct white-box T2I and query-only black-box VLM setting. By coupling a high-level prompt editor with low-level T2I fine-tuning via Group Relative Policy Optimization (GRPO), STARE attains a 68% improvement in Attack Success Rate over state-of-the-art black-box and white-box baselines. More importantly, this trajectory-level view surfaces the Optimization-Induced Phase Alignment phenomenon: vanilla models exhibit diffuse toxicity, whereas adversarial optimization concentrates conceptual harms into early semantic phases and detail-oriented harms into late refinement. Targeted perturbations of either window selectively suppress different toxicity categories, indicating that this temporal structure is a genuine causal handle rather than a side effect of the hierarchical design. The phenomenon turns toxicity formation from a chaotic process into a small set of predictable vulnerability windows, providing both a potent attack engine and a basis for phase-aware safety mechanisms. Content warning: This paper contains examples of toxic content that may be offensive or disturbing.
- Abstract(参考訳): 敵画像テキスト入力が有害な出力を引き起こす脆弱性を特定するには、赤チームビジョンランゲージモデルが不可欠である。
既存のアプローチでは、画像生成をブラックボックスとして扱い、終末毒性スコアのみを返却し、多段階合成中に有毒なセマンティクスがいつ、どのように出現するかという疑問を解き放つ。
STAREは階層的な強化学習フレームワークであり,攻撃面としての認知軌道自体を,直接的ホワイトボックスT2Iとクエリ専用ブラックボックスVLM設定で処理する。
高レベルのプロンプトエディタと低レベルのT2I微調整をグループ相対ポリシー最適化(GRPO)を介して結合することにより、STAREは最先端のブラックボックスとホワイトボックスのベースラインよりもアタック成功率を68%向上させる。
バニラモデルは拡散毒性を示し、対向最適化は初期の意味相と詳細指向の害を後期改良に集中させる。
いずれかの窓の標的摂動は、異なる毒性カテゴリーを選択的に抑制し、この時間構造が階層設計の副作用ではなく真の因果ハンドルであることを示す。
この現象はカオス的なプロセスから毒性の形成を予測可能な小さな脆弱性ウィンドウに変え、強力な攻撃エンジンと位相認識型安全機構の基礎を提供する。
コンテンツ警告: 本論文は、攻撃的または乱暴な有害なコンテンツの例を含む。
関連論文リスト
- When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models [75.16145284285456]
我々は,White-box設定とBlack-box設定の両方の下で,組込みVLAモデルのマルチモーダル対向ロバスト性に関する総合的研究であるVLA-Foolを紹介する。
自動生成および意味的に誘導されるプロンプトフレームワークを最初に開発する。
LIBEROベンチマークの実験では、小さなマルチモーダル摂動でさえ大きな行動偏差を引き起こすことが示されている。
論文 参考訳(メタデータ) (2025-11-20T10:14:32Z) - EchoGen: Generating Visual Echoes in Any Scene via Feed-Forward Subject-Driven Auto-Regressive Model [56.53617289548353]
EchoGenは、主観駆動生成機能を備えたVisual Auto-Regressive(VAR)モデルを強化する先駆的なフレームワークである。
対象の抽象的アイデンティティを抽出するためにセマンティックエンコーダを用いており、このエンコーダは分離されたクロスアテンションを通して注入され、全体の構成を導出する。
私たちの知る限りでは、EchoGenはVARモデル上に構築された最初のフィードフォワードの主観駆動フレームワークです。
論文 参考訳(メタデータ) (2025-09-30T11:45:48Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Visual Contextual Attack: Jailbreaking MLLMs with Image-Driven Context Injection [31.1604742796343]
マルチモーダルな大規模言語モデル(MLLM)は、現実世界のアプリケーションにとって大きな可能性を実証している。
視覚的モダリティによって示されたセキュリティ脆弱性は、そのようなモデルをオープンな環境にデプロイする上で重大な課題となる。
視覚中心のジェイルブレイクコンテキストを構築する上で,視覚情報が必要なコンポーネントとして機能する視覚的コンテキストアタックを提案する。
論文 参考訳(メタデータ) (2025-07-03T17:53:12Z) - RedDiffuser: Red Teaming Vision-Language Models for Toxic Continuation via Reinforced Stable Diffusion [27.68654681867373]
VLM(Vision-Language Models)は、ジェイルブレイク攻撃に対して脆弱である。
本研究では, 有害な連続性という, この脅威の近親相姦変異について検討する。
有害な連続を誘発する自然界の逆画像を生成するRedDiffuserを提案する。
論文 参考訳(メタデータ) (2025-03-08T13:51:40Z) - CogMorph: Cognitive Morphing Attacks for Text-to-Image Models [65.38747950692752]
本稿では,テキスト・ツー・イメージ(T2I)生成モデルに固有の有意かつ未認識の倫理的リスクを明らかにする。
我々は,T2Iモデルを操作して,本来の中核領域を保持するが有害または有害な文脈要素を埋め込んだ画像を生成する,CogMorph(CogMorph)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2025-01-21T01:45:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。