論文の概要: Unsafe by Reciprocity: How Generation-Understanding Coupling Undermines Safety in Unified Multimodal Models
- arxiv url: http://arxiv.org/abs/2603.27332v1
- Date: Sat, 28 Mar 2026 16:28:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.906877
- Title: Unsafe by Reciprocity: How Generation-Understanding Coupling Undermines Safety in Unified Multimodal Models
- Title(参考訳): 相互性による不安全:統一マルチモーダルモデルにおける世代間結合がいかに安全性を損なうか
- Authors: Kaishen Wang, Heng Huang,
- Abstract要約: 統一マルチモーダルモデル(UMM)における相互機能相互性自体が脆弱性の構造的源となっているかを検討する。
相互相互作用に基づくクロスファンクショナル・ファンクショナル・エクスプロイテーションは, 理解と生成の間の双方向の相互作用を明示的に活用する, 新たな攻撃パラダイムである。
- 参考スコア(独自算出の注目度): 53.41258113970795
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in Large Language Models (LLMs) and Text-to-Image (T2I) models have led to the emergence of Unified Multimodal Models (UMMs), where multimodal understanding and image generation are tightly integrated within a shared architecture. Prior studies suggest that such reciprocity enhances cross-functionality performance through shared representations and joint optimization. However, the safety implications of this tight coupling remain largely unexplored, as existing safety research predominantly analyzes understanding and generation functionalities in isolation. In this work, we investigate whether cross-functionality reciprocity itself constitutes a structural source of vulnerability in UMMs. We propose RICE: Reciprocal Interaction-based Cross-functionality Exploitation, a novel attack paradigm that explicitly exploits bidirectional interactions between understanding and generation. Using this framework, we systematically evaluate Generation-to-Understanding (G-U) and Understanding-to-Generation (U-G) attack pathways, demonstrating that unsafe intermediate signals can propagate across modalities and amplify safety risks. Extensive experiments show high Attack Success Rates (ASR) in both directions, revealing previously overlooked safety weaknesses inherent to UMMs.
- Abstract(参考訳): 大規模言語モデル(LLM)とテキスト・ツー・イメージ(T2I)モデルの最近の進歩は、マルチモーダル理解と画像生成が共有アーキテクチャに密に統合される統一マルチモーダルモデル(UMM)の出現につながっている。
先行研究は、そのような相互性は共有表現と共同最適化を通じてクロスファンクショナルな性能を高めることを示唆している。
しかしながら、この密結合の安全性への影響は、既存の安全研究が独立して理解と生成の機能を主に分析しているため、未解明のままである。
本研究では,機能的相互性自体がUMMの構造的脆弱性源であるかどうかを考察する。
相互相互作用に基づくクロスファンクショナル・ファンクショナル・エクスプロイテーションは, 理解と生成の間の双方向の相互作用を明示的に活用する, 新たな攻撃パラダイムである。
この枠組みを用いて、安全でない中間信号がモダリティを越えて伝播し、安全性のリスクを増幅できることを実証し、G-UとU-Gの攻撃経路を体系的に評価する。
大規模な実験では、両方向に高い攻撃成功率(ASR)を示し、これまで見過ごされていたUMM固有の安全性の弱点が明らかになった。
関連論文リスト
- Diagnosing and Repairing Unsafe Channels in Vision-Language Models via Causal Discovery and Dual-Modal Safety Subspace Projection [21.411964269762432]
本稿では,LVLM(Large Vision-Language Models)における安全でないチャネルの診断と修復のための包括的フレームワークを提案する。
まず、安全でない行動に因果的に責任を負うニューロンや層を特定するために、因果媒介分析を行う。
本稿では、視覚的・テキスト的両モードの汎用安全部分空間を学習するデュアルモーダル・セーフティ・サブスペース・プロジェクション法を提案する。
論文 参考訳(メタデータ) (2026-03-28T11:31:16Z) - Quantifying the Gap between Understanding and Generation within Unified Multimodal Models [66.07644743841007]
GapEvalは、理解と生成能力のギャップを定量化するために設計されたベンチマークである。
実験により、幅広いUMMにわたる2つの方向の連続的なギャップが明らかになる。
以上の結果から,UMM内の知識は相容れないことが多いことが示唆された。
論文 参考訳(メタデータ) (2026-02-02T14:19:37Z) - Beyond Single-Agent Safety: A Taxonomy of Risks in LLM-to-LLM Interactions [0.0]
本稿では,大規模な言語モデルが相互に相互作用する環境に,人間-モデル相互作用用に設計された安全メカニズムがスケールしない理由について検討する。
モデルレベルの安全性からシステムレベルの安全性への概念的移行を提案し,ESRH(Emergent Systemic Risk Horizon)の枠組みを導入する。
i) LLMの相互作用における集団的リスクの理論的考察,(ii)マイクロ,メソ,マクロレベルの障害モードを接続する分類法,および(iii)マルチエージェントシステムに適応的監視を組み込むアーキテクチャであるInstitutionalAIの設計を提案する。
論文 参考訳(メタデータ) (2025-12-02T12:06:57Z) - Uni-MMMU: A Massive Multi-discipline Multimodal Unified Benchmark [69.8473923357969]
統一マルチモーダルモデルは、視覚的理解と生成を共同で行うことを目的としているが、現在のベンチマークでは、その真の統合を検査することはめったにない。
提案するUni-MMMUは、8つの推論中心領域にまたがる生成と理解の双方向の相乗効果を拡大する総合的なベンチマークである。
論文 参考訳(メタデータ) (2025-10-15T17:10:35Z) - COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - Co-AttenDWG: Co-Attentive Dimension-Wise Gating and Expert Fusion for Multi-Modal Offensive Content Detection [0.0]
マルチモーダル学習は重要な研究の方向性として浮上している。
既存のアプローチは、しばしばクロスモーダル相互作用の不足と固い融合戦略に悩まされる。
本稿では,Co-AttenDWGを提案する。
我々は,Co-AttenDWGが最先端性能と優れたクロスモーダルアライメントを実現することを示す。
論文 参考訳(メタデータ) (2025-05-25T07:26:00Z) - Safety Alignment Can Be Not Superficial With Explicit Safety Signals [8.297367440457508]
大規模言語モデル(LLM)の安全性アライメントに関する最近の研究は、既存のアプローチがしばしば表面的に機能することを明らかにしている。
既存のアライメントアプローチでは、アライメントプロセス中にモデルが暗黙的に安全関連推論タスクを学習できると考えられる。
安全関連バイナリ分類タスクを明示的に導入し,その信号を注意と復号化戦略に統合することにより,この曖昧さを解消する。
論文 参考訳(メタデータ) (2025-05-19T20:40:46Z) - SoK: The Security-Safety Continuum of Multimodal Foundation Models through Information Flow and Game-Theoretic Defenses [58.93030774141753]
MFM(Multimodal foundation model)は、多種多様なデータモダリティを統合し、複雑で広範囲なタスクをサポートする。
本稿では,モデル行動とシステムレベルの相互作用の両方から生じる致命的な脅威を特定することで,MFMの文脈における安全性とセキュリティの概念を統一する。
論文 参考訳(メタデータ) (2024-11-17T23:06:20Z) - Mixture of insighTful Experts (MoTE): The Synergy of Thought Chains and Expert Mixtures in Self-Alignment [103.05005690990271]
MoTE(Mixture of insightful Experts)は、推論チェーンとエキスパートミックスを組み合わせて自己調整を改善する新しいフレームワークである。
MoTEはモデルの安全性、脱獄耐性、過剰な拒否機能を大幅に改善し、OpenAIの最先端のo1モデルに匹敵するパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-01T15:06:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。