論文の概要: The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning
- arxiv url: http://arxiv.org/abs/2601.14127v1
- Date: Tue, 20 Jan 2026 16:24:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.412029
- Title: The Side Effects of Being Smart: Safety Risks in MLLMs' Multi-Image Reasoning
- Title(参考訳): スマートであることの副作用:MLLMのマルチイメージ推論における安全性リスク
- Authors: Renmiao Chen, Yida Lu, Shiyao Cui, Xuan Ouyang, Victor Shea-Jay Huang, Shumin Zhang, Chengwei Pan, Han Qiu, Minlie Huang,
- Abstract要約: MIR-SafetyBenchは,マルチイメージ推論の安全性を重視した最初のベンチマークである。
より高度なマルチイメージ推論を持つモデルは、MIR-SafetyBenchに対してより脆弱であることが判明した。
安全でない世代は 平均して安全な世代よりも 注意のエントロピーが低い
- 参考スコア(独自算出の注目度): 46.156246746700894
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Multimodal Large Language Models (MLLMs) acquire stronger reasoning capabilities to handle complex, multi-image instructions, this advancement may pose new safety risks. We study this problem by introducing MIR-SafetyBench, the first benchmark focused on multi-image reasoning safety, which consists of 2,676 instances across a taxonomy of 9 multi-image relations. Our extensive evaluations on 19 MLLMs reveal a troubling trend: models with more advanced multi-image reasoning can be more vulnerable on MIR-SafetyBench. Beyond attack success rates, we find that many responses labeled as safe are superficial, often driven by misunderstanding or evasive, non-committal replies. We further observe that unsafe generations exhibit lower attention entropy than safe ones on average. This internal signature suggests a possible risk that models may over-focus on task solving while neglecting safety constraints. Our code and data are available at https://github.com/thu-coai/MIR-SafetyBench.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑なマルチイメージ命令を扱う強力な推論能力を持つため、この進歩は新たな安全性リスクをもたらす可能性がある。
MIR-SafetyBenchは,9つのマルチイメージ関係の分類にまたがる2,676のインスタンスからなるマルチイメージ推論の安全性に着目した最初のベンチマークである。
MIR-SafetyBenchでは、より高度なマルチイメージ推論モデルの方が、より脆弱である可能性がある。
攻撃の成功率以外にも、安全とラベル付けされた多くの応答は表面的なもので、誤解や回避的な非コミット的な応答によって引き起こされることが多い。
さらに、安全でない世代は、安全でない世代よりも注意のエントロピーが低いことを観察する。
この内部署名は、モデルが安全上の制約を無視しながらタスク解決に過度に注力するリスクを示唆している。
私たちのコードとデータはhttps://github.com/thu-coai/MIR-SafetyBench.comで公開されています。
関連論文リスト
- MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs [22.919956583415324]
マルチイメージ分散と意味再構成(MIDAS)
本稿では,有害なセマンティクスをリスク対応サブユニットに分解するマルチモーダルジェイルブレイクフレームワークを提案する。
MIDASはより長く、より構造化されたマルチイメージ連鎖推論を強制する。
論文 参考訳(メタデータ) (2026-02-28T09:29:36Z) - COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability [101.80200069234377]
COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
論文 参考訳(メタデータ) (2025-10-05T13:30:03Z) - Align is not Enough: Multimodal Universal Jailbreak Attack against Multimodal Large Language Models [83.80177564873094]
マルチモーダル・ユニバーサル・ジェイルブレイク・アタック・フレームワークを提案する。
LLaVA,Yi-VL,MiniGPT4,MiniGPT-v2,InstructBLIPなどのMLLMの望ましくないコンテキスト生成を評価する。
本研究は,MLLMにおける堅牢な安全対策の必要性を浮き彫りにするものである。
論文 参考訳(メタデータ) (2025-06-02T04:33:56Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.63418384788804]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - SafeMLRM: Demystifying Safety in Multi-modal Large Reasoning Models [50.34706204154244]
推論能力の獲得は、引き継がれた安全アライメントを壊滅的に劣化させる。
特定のシナリオは、25倍の攻撃率を被る。
MLRMは、厳密な推論と問合せの安全結合にもかかわらず、初期段階の自己補正を示す。
論文 参考訳(メタデータ) (2025-04-09T06:53:23Z) - Can't See the Forest for the Trees: Benchmarking Multimodal Safety Awareness for Multimodal LLMs [56.440345471966666]
MLLM(Multimodal Large Language Models)は、テキストと画像の両方を通して対話を可能にすることで、従来の言語モデルの能力を拡大した。
MMSafeAwareは,安全シナリオ29のMLLMを評価するために設計された,初の総合的マルチモーダル安全意識ベンチマークである。
MMSafeAwareには安全でないサブセットと安全でないサブセットの両方が含まれており、安全でないコンテンツを正しく識別するモデルの評価と、有用性を阻害する過敏性を回避することができる。
論文 参考訳(メタデータ) (2025-02-16T16:12:40Z) - MLLM-as-a-Judge for Image Safety without Human Labeling [81.24707039432292]
AIGCの時代には、多くの画像生成モデルは有害なコンテンツを生成できる。
確立された安全ルールに基づいて、このような安全でない画像を特定することが不可欠である。
既存のアプローチでは、人間のラベル付きデータセットを使った微調整MLLMが一般的である。
論文 参考訳(メタデータ) (2024-12-31T00:06:04Z) - MM-SafetyBench: A Benchmark for Safety Evaluation of Multimodal Large Language Models [41.708401515627784]
我々は,Multimodal Large Language Models (MLLM) がクエリ関連画像によって容易に損なわれることを観察した。
画像ベース操作に対するMLLMの安全性クリティカルな評価を行うためのフレームワークであるMM-SafetyBenchを紹介する。
我々の研究は、潜在的に悪意のある悪用に対して、オープンソースのMLLMの安全性対策を強化し、強化するための協力的な努力の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2023-11-29T12:49:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。