論文の概要: When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2509.12060v2
- Date: Tue, 16 Sep 2025 06:19:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-17 11:35:27.011623
- Title: When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models
- Title(参考訳): 安全ユニモーダル入力が衝突した場合:マルチモーダル大言語モデルにおけるクロスモーダルセーフティのための推論チェーンの最適化
- Authors: Wei Cai, Shujuan Liu, Jian Zhao, Ziyan Shi, Yusheng Zhao, Yuchen Yuan, Tianle Zhang, Chi Zhang, Xuelong Li,
- Abstract要約: 我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
- 参考スコア(独自算出の注目度): 50.66979825532277
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal Large Language Models (MLLMs) are susceptible to the implicit reasoning risk, wherein innocuous unimodal inputs synergistically assemble into risky multimodal data that produce harmful outputs. We attribute this vulnerability to the difficulty of MLLMs maintaining safety alignment through long-chain reasoning. To address this issue, we introduce Safe-Semantics-but-Unsafe-Interpretation (SSUI), the first dataset featuring interpretable reasoning paths tailored for such a cross-modal challenge. A novel training framework, Safety-aware Reasoning Path Optimization (SRPO), is also designed based on the SSUI dataset to align the MLLM's internal reasoning process with human safety values. Experimental results show that our SRPO-trained models achieve state-of-the-art results on key safety benchmarks, including the proposed Reasoning Path Benchmark (RSBench), significantly outperforming both open-source and top-tier commercial MLLMs.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は暗黙の推論リスクに敏感であり、有害な出力を生成する危険なマルチモーダルデータに、無害な単一モーダル入力が相乗的に組み立てられる。
この脆弱性は、長鎖推論による安全アライメントを維持するMLLMの難しさに起因している。
この問題に対処するために,このようなクロスモーダルな課題に適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されており、MLLMの内部推論プロセスと人間の安全性の値が一致している。
実験結果から,提案したReasoning Path Benchmark (RSBench) を含む主要な安全ベンチマークにおいて,SRPO学習モデルが最先端の安全性を達成し,オープンソースおよび上位の商用MLLMを著しく上回る結果が得られた。
関連論文リスト
- MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models [17.824240702928133]
VLM(Vision-Language Models)は、多モーダル推論タスクにおいて、チェーンオブ思考能力の向上を通じて、顕著な進歩を遂げている。
既存の安全アライメントアプローチは、マルチモーダル入力によって引き起こされる複雑でニュアンスな脅威に対処するには不十分である。
MSR-Alignは、視覚とテキストのモダリティの双方にわたって標準化された安全ポリシーよりも、きめ細かい、熟考的な推論をサポートしている。
論文 参考訳(メタデータ) (2025-06-24T02:37:59Z) - USB: A Comprehensive and Unified Safety Evaluation Benchmark for Multimodal Large Language Models [31.412080488801507]
Unified Safety Benchmarks (USB) はMLLMの安全性において最も包括的な評価ベンチマークの一つである。
我々のベンチマークでは、高品質なクエリ、広範囲なリスクカテゴリ、包括的なモーダルの組み合わせ、脆弱性と過度な評価の両方が特徴である。
論文 参考訳(メタデータ) (2025-05-26T08:39:14Z) - DREAM: Disentangling Risks to Enhance Safety Alignment in Multimodal Large Language Models [37.104276926258095]
MLLM(Multimodal Large Language Models)は、視覚データとテキストデータの統合により、ユニークな安全性上の課題を提起する。
textbfDREAM(textittextbfDisentangling textbfRisks to textbfEnhance Safety textbfAlignment in textbfMLLMs)を導入する。
論文 参考訳(メタデータ) (2025-04-25T03:54:24Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。