論文の概要: SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models
- arxiv url: http://arxiv.org/abs/2510.06871v2
- Date: Thu, 09 Oct 2025 13:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 12:56:53.587794
- Title: SaFeR-VLM: Toward Safety-aware Fine-grained Reasoning in Multimodal Models
- Title(参考訳): SaFeR-VLM:マルチモーダルモデルにおける安全性を考慮した微粒化推論を目指して
- Authors: Huahui Yi, Kun Wang, Qiankun Li, Miao Yu, Liang Lin, Gongli Xi, Hao Wu, Xuming Hu, Kang Li, Yang Liu,
- Abstract要約: MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を示すが、しばしば敵のプロンプトによる安全性のリスクを増幅する。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルは暗黙のリスクに置かれる。
4つのコンポーネントを統合し,表面レベルのフィルタリングを超える動的かつ解釈可能な安全性決定をサポートするSaFeR-VLMを提案する。
- 参考スコア(独自算出の注目度): 66.71948519280669
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal Large Reasoning Models (MLRMs) demonstrate impressive cross-modal reasoning but often amplify safety risks under adversarial or unsafe prompts, a phenomenon we call the \textit{Reasoning Tax}. Existing defenses mainly act at the output level and do not constrain the reasoning process, leaving models exposed to implicit risks. In this paper, we propose SaFeR-VLM, a safety-aligned reinforcement learning framework that embeds safety directly into multimodal reasoning. The framework integrates four components: (I) QI-Safe-10K, a curated dataset emphasizing safety-critical and reasoning-sensitive cases; (II) safety-aware rollout, where unsafe generations undergo reflection and correction instead of being discarded; (III) structured reward modeling with multi-dimensional weighted criteria and explicit penalties for hallucinations and contradictions; and (IV) GRPO optimization, which reinforces both safe and corrected trajectories. This unified design shifts safety from a passive safeguard to an active driver of reasoning, enabling scalable and generalizable safety-aware reasoning. SaFeR-VLM further demonstrates robustness against both explicit and implicit risks, supporting dynamic and interpretable safety decisions beyond surface-level filtering. SaFeR-VLM-3B achieves average performance $70.13$ and $78.97$ on safety and helpfulness across six benchmarks, surpassing both same-scale and $>10\times$ larger models such as Skywork-R1V3-38B, Qwen2.5VL-72B, and GLM4.5V-106B. Remarkably, SaFeR-VLM-7B benefits from its increased scale to surpass GPT-5-mini and Gemini-2.5-Flash by \num{6.47} and \num{16.76} points respectively on safety metrics, achieving this improvement without any degradation in helpfulness performance. Our codes are available at https://github.com/HarveyYi/SaFeR-VLM.
- Abstract(参考訳): MLRM(Multimodal Large Reasoning Models)は、クロスモーダルな推論を際立たせるが、しばしば敵のプロンプトや安全でないプロンプトによる安全リスクを増幅する現象である。
既存の防御は主に出力レベルで動作し、推論プロセスを制約せず、モデルが暗黙のリスクにさらされる。
本稿では,安全性を直接マルチモーダル推論に組み込む安全対応強化学習フレームワークSaFeR-VLMを提案する。
このフレームワークは、4つのコンポーネントを統合している: (I) QI-Safe-10K, 安全クリティカルで推論に敏感なケースを強調したキュレートデータセット, (II) 非安全世代が破棄される代わりにリフレクションと修正を受けるようなロールアウト, (III) 多次元の重み付き基準と幻覚と矛盾に対する明確な罰則による構造化された報酬モデリング, (IV) GRPO最適化。
この統一された設計は、安全を受動的安全ガードからアクティブな推論ドライバにシフトさせ、スケーラブルで一般化可能な安全対応推論を可能にする。
SaFeR-VLMはさらに、明示的なリスクと暗黙的なリスクの両方に対して堅牢性を示し、表面レベルのフィルタリングを超えて動的かつ解釈可能な安全性決定をサポートする。
SaFeR-VLM-3Bは6つのベンチマークで平均70.13$と78.97$の安全性を達成し、Skywork-R1V3-38B、Qwen2.5VL-72B、GLM4.5V-106Bのような大型モデルと同じスケールと10\timesを上回っている。
注目すべきことに、SaFeR-VLM-7BはGPT-5-mini と Gemini-2.5-Flash をそれぞれ num{6.47} と \num{16.76} で上回るスケールの利点があり、有用性性能の劣化なしにこの改善を達成している。
私たちのコードはhttps://github.com/HarveyYi/SaFeR-VLMで公開されています。
関連論文リスト
- SafeWork-R1: Coevolving Safety and Intelligence under the AI-45$^{\circ}$ Law [91.33824439029533]
我々は,機能と安全性の共進化を示す最先端のマルチモーダル推論モデルであるSafeWork-R1を紹介する。
大規模でプログレッシブで安全指向の強化学習をポストトレーニングに取り入れたSafeLadderフレームワークを開発した。
さらに,SafeWork-R1-InternVL3-78B,SafeWork-R1-DeepSeek-70B,SafeWork-R1-Qwen2.5VL-7Bを開発した。
論文 参考訳(メタデータ) (2025-07-24T16:49:19Z) - Think in Safety: Unveiling and Mitigating Safety Alignment Collapse in Multimodal Large Reasoning Model [29.63418384788804]
5つのベンチマークでMLRM(Multimodal Large Reasoning Model)11の安全性評価を行う。
分析の結果、異なるベンチマークで異なる安全性パターンが明らかになった。
これは、モデル固有の推論能力を活用して安全でない意図を検出することで、MLRMの安全性問題に対処する潜在的アプローチである。
論文 参考訳(メタデータ) (2025-05-10T06:59:36Z) - Safe RLHF-V: Safe Reinforcement Learning from Multi-modal Human Feedback [34.01716144973483]
汎用AIアシスタント構築にはMLLM(Multimodal large language model)が不可欠である。
MLLMの安全アライメントをどうやって確保すれば、望ましくない行動を防ぐことができるのか?
本研究では,安全なRLHF-Vを初めて探求する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - The Hidden Risks of Large Reasoning Models: A Safety Assessment of R1 [70.94607997570729]
本稿では,OpenAI-o3およびDeepSeek-R1推論モデルの総合的安全性評価を行う。
本研究では, 現実の応用における強靭性を評価するために, ジェイルブレイクやインジェクションなどの敵攻撃に対する感受性について検討する。
論文 参考訳(メタデータ) (2025-02-18T09:06:07Z) - Rethinking Bottlenecks in Safety Fine-Tuning of Vision Language Models [25.606641582511106]
モデル性能を向上させるために,マルチイメージ入力と安全チェーン・オブ・ソート(CoT)ラベルを微粒な推論ロジックとして統合する新しいデータセットを提案する。
実験の結果,MISを用いた微調整InternVL2.5-8Bは,マルチイメージタスクに挑戦する上で,強力なオープンソースモデルとAPIベースモデルの両方を著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2025-01-30T17:59:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。