論文の概要: STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models
- arxiv url: http://arxiv.org/abs/2509.26473v1
- Date: Tue, 30 Sep 2025 16:22:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:45:00.2
- Title: STaR-Attack: A Spatio-Temporal and Narrative Reasoning Attack Framework for Unified Multimodal Understanding and Generation Models
- Title(参考訳): STaR-Attack:統合マルチモーダル理解・生成モデルのための時空間的・物語的推論攻撃フレームワーク
- Authors: Shaoxiong Guo, Tianyi Du, Lijun Li, Yuyao Wu, Jie Li, Jing Shao,
- Abstract要約: 統一マルチモーダル理解・生成モデル(UMM)における世代間結合から生じる脆弱性を同定する。
セマンティックドリフトを使わずにUMMのユニークな安全性の弱点を利用する,初のマルチターンジェイルブレイク攻撃フレームワークSTaRAttackを提案する。
- 参考スコア(独自算出の注目度): 26.85057724101928
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unified Multimodal understanding and generation Models (UMMs) have demonstrated remarkable capabilities in both understanding and generation tasks. However, we identify a vulnerability arising from the generation-understanding coupling in UMMs. The attackers can use the generative function to craft an information-rich adversarial image and then leverage the understanding function to absorb it in a single pass, which we call Cross-Modal Generative Injection (CMGI). Current attack methods on malicious instructions are often limited to a single modality while also relying on prompt rewriting with semantic drift, leaving the unique vulnerabilities of UMMs unexplored. We propose STaR-Attack, the first multi-turn jailbreak attack framework that exploits unique safety weaknesses of UMMs without semantic drift. Specifically, our method defines a malicious event that is strongly correlated with the target query within a spatio-temporal context. Using the three-act narrative theory, STaR-Attack generates the pre-event and the post-event scenes while concealing the malicious event as the hidden climax. When executing the attack strategy, the opening two rounds exploit the UMM's generative ability to produce images for these scenes. Subsequently, an image-based question guessing and answering game is introduced by exploiting the understanding capability. STaR-Attack embeds the original malicious question among benign candidates, forcing the model to select and answer the most relevant one given the narrative context. Extensive experiments show that STaR-Attack consistently surpasses prior approaches, achieving up to 93.06% ASR on Gemini-2.0-Flash and surpasses the strongest prior baseline, FlipAttack. Our work uncovers a critical yet underdeveloped vulnerability and highlights the need for safety alignments in UMMs.
- Abstract(参考訳): 統一マルチモーダル理解と生成モデル(UMM)は、理解と生成の両方において顕著な能力を示した。
しかし,UMMにおける世代間結合から生じる脆弱性を同定する。
攻撃者は生成関数を用いて情報豊富な逆画像を作成し、その理解関数を利用して単一のパスに吸収し、それをクロスモーダル生成注入(CMGI)と呼ぶ。
悪意のある命令に対する現在の攻撃方法は、しばしば単一のモダリティに制限されるが、セマンティックドリフトによる即時書き換えに依存しており、UMMのユニークな脆弱性は未発見のままである。
セマンティックドリフトを使わずにUMMのユニークな安全性の弱点を利用する,初のマルチターンジェイルブレイク攻撃フレームワークSTaR-Attackを提案する。
具体的には、時空間におけるターゲットクエリと強く相関する悪意のあるイベントを定義する。
3幕の物語理論を用いて、STaR-Attackは、悪質な出来事を隠されたクライマックスとして隠しながら、前景と後景を生成する。
攻撃戦略を実行する際、オープニング2ラウンドは、これらのシーンのために画像を生成するUMMの生成能力を利用する。
そして、その理解能力を利用して、画像に基づく疑問推測・解答ゲームを導入する。
STaR-Attackは、元の悪意のある質問を良心的な候補者に埋め込む。
STaR-Attackは、Gemini-2.0-Flash上で最大93.06%のASRを達成し、最強のベースラインであるFlipAttackを上回っている。
我々の研究は、重要で未発達の脆弱性を明らかにし、UMMにおける安全アライメントの必要性を強調します。
関連論文リスト
- Manipulating Multimodal Agents via Cross-Modal Prompt Injection [34.35145839873915]
マルチモーダルエージェントにおいて、これまで見過ごされていた重要なセキュリティ脆弱性を特定します。
攻撃者が複数のモードにまたがって敵の摂動を埋め込む新たな攻撃フレームワークであるCrossInjectを提案する。
本手法は,攻撃成功率を少なくとも30.1%向上させることで,最先端の攻撃よりも優れる。
論文 参考訳(メタデータ) (2025-04-19T16:28:03Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - MAGIC: Mastering Physical Adversarial Generation in Context through Collaborative LLM Agents [18.1558732924808]
物理的敵攻撃をワンショットパッチ生成問題として再検討する。
提案手法は, 深い生成モデルを用いて, 対向パッチを生成する。
マルチモーダル LLM エージェントを用いた新しいフレームワーク MAGIC を提案する。
論文 参考訳(メタデータ) (2024-12-11T01:41:19Z) - LLMs know their vulnerabilities: Uncover Safety Gaps through Natural Distribution Shifts [88.96201324719205]
大規模言語モデル(LLM)の安全性に関する懸念は、事前訓練中に潜在的に有害なデータに曝されることにより、大きな注目を集めている。
我々は、有害なコンテンツに意味的に関連していると思われる良心的なプロンプトが、安全性のメカニズムを回避できる新しい安全性脆弱性をLSMで特定する。
我々は,事前学習における有害なプロンプトに関連するアクターを識別する新しい攻撃手法,textitActorBreakerを導入する。
論文 参考訳(メタデータ) (2024-10-14T16:41:49Z) - Imposter.AI: Adversarial Attacks with Hidden Intentions towards Aligned Large Language Models [13.225041704917905]
本研究では,大規模言語モデルから有害情報を抽出するために,人間の会話戦略を活かした攻撃機構を明らかにする。
明示的な悪意のある応答をターゲットとする従来の手法とは異なり、我々のアプローチは応答で提供される情報の性質を深く掘り下げている。
論文 参考訳(メタデータ) (2024-07-22T06:04:29Z) - White-box Multimodal Jailbreaks Against Large Vision-Language Models [61.97578116584653]
本稿では,テキストと画像のモダリティを併用して,大規模視覚言語モデルにおけるより広範な脆弱性のスペクトルを利用する,より包括的戦略を提案する。
本手法は,テキスト入力がない場合に,逆画像プレフィックスをランダムノイズから最適化し,有害な応答を多様に生成することから始める。
様々な有害な指示に対する肯定的な反応を誘発する確率を最大化するために、対向テキスト接頭辞を、対向画像接頭辞と統合し、共最適化する。
論文 参考訳(メタデータ) (2024-05-28T07:13:30Z) - VL-Trojan: Multimodal Instruction Backdoor Attacks against
Autoregressive Visual Language Models [65.23688155159398]
VLM(Autoregressive Visual Language Models)は、マルチモーダルなコンテキストにおいて、驚くべき数ショットの学習機能を示す。
近年,マルチモーダル・インストラクション・チューニングが提案されている。
敵は、指示や画像に埋め込まれたトリガーで有毒なサンプルを注入することで、バックドアを埋め込むことができる。
本稿では,マルチモーダルなバックドア攻撃,すなわちVL-Trojanを提案する。
論文 参考訳(メタデータ) (2024-02-21T14:54:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。