論文の概要: COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability
- arxiv url: http://arxiv.org/abs/2510.04196v1
- Date: Sun, 05 Oct 2025 13:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.509505
- Title: COSMO-RL: Towards Trustworthy LMRMs via Joint Safety and Stability
- Title(参考訳): COSMO-RL:共同安全と安定性による信頼性の高いLMRMを目指して
- Authors: Yizhuo Ding, Mingkang Chen, Qiuhua Liu, Fenghua Weng, Wanying Qu, Yue Yang, Yugang Jiang, Zuxuan Wu, Yanwei Fu, Wenqi Shao,
- Abstract要約: COSMO-RLは,マルチモーダル・マルチタスク・マルチオブジェクト信号下でLMRMを学習する混合強化学習フレームワークである。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
- 参考スコア(独自算出の注目度): 101.80200069234377
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Multimodal Reasoning Models (LMRMs) are moving into real applications, where they must be both useful and safe. Safety is especially challenging in multimodal settings: images and text can be combined to bypass guardrails, and single objective training can cause policy drift that yields over-refusal on benign inputs or unsafe compliance on risky ones. We present COSMO-RL, a mixed reinforcement learning framework that trains reasoning oriented LMRMs under multimodal, multitask, and multiobjective signals, and we release the resulting model, COSMO-R1. Our approach aims to let safety and capability grow together in one stable pipeline rather than competing during alignment. In experiments, COSMO-R1 improves safety while maintaining-and often improving multimodal reasoning and instruction following, shows stronger robustness to multimodal jailbreaks, and reduces unnecessary refusals. The framework also transfers across backbones with consistent gains. Ablations support the design choices, indicating a simple path to advancing safety and general capability together in LMRMs.
- Abstract(参考訳): 大規模なマルチモーダル推論モデル(LMRM)は実際のアプリケーションに移行し、有用かつ安全でなければならない。
画像とテキストはガードレールをバイパスするために組み合わせることができ、単一の客観的トレーニングは、良心的な入力に対する過剰な拒絶や危険な入力に対する安全でないコンプライアンスをもたらすポリシードリフトを引き起こす可能性がある。
COSMO-RLは,マルチモーダル,マルチタスク,マルチオブジェクト信号による指向性LMRMの推論を学習する混合強化学習フレームワークであり,結果のモデルであるCOSMO-R1をリリースする。
我々のアプローチは、アライメント中に競合するのではなく、安全と能力をひとつの安定したパイプラインで一緒に成長させることを目的としています。
実験では、COSMO-R1は安全性を向上し、頻繁にマルチモーダル推論と命令の改善を行い、マルチモーダルジェイルブレイクに対する強い堅牢性を示し、不要な拒絶を減らす。
フレームワークはまた、一貫した利得でバックボーン間で転送する。
アブレーションは設計選択をサポートし、LMRMにおいて安全性と汎用性を向上するための単純な経路を示す。
関連論文リスト
- When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models [17.824240702928133]
VLM(Vision-Language Models)は、多モーダル推論タスクにおいて、チェーンオブ思考能力の向上を通じて、顕著な進歩を遂げている。
既存の安全アライメントアプローチは、マルチモーダル入力によって引き起こされる複雑でニュアンスな脅威に対処するには不十分である。
MSR-Alignは、視覚とテキストのモダリティの双方にわたって標準化された安全ポリシーよりも、きめ細かい、熟考的な推論をサポートしている。
論文 参考訳(メタデータ) (2025-06-24T02:37:59Z) - Think Smart, Act SMARL! Analyzing Probabilistic Logic Shields for Multi-Agent Reinforcement Learning [3.7957452405531265]
Shielded Multi-Agent Reinforcement Learning (SMARL)は、MARLを標準に準拠した結果にステアリングするための一般的なフレームワークである。
主なコントリビューションは次のとおりです。
Probabilistic Logic Temporal difference (PLTD) update for shielded, independent Q-learning;
MARLの形式的安全性を保証するシールド付きPPOの確率論的論理ポリシー勾配法
対称的および非対称的に遮蔽された$n$のプレイヤーゲーム理論ベンチマークを総合的に評価する。
論文 参考訳(メタデータ) (2024-11-07T16:59:32Z) - Safe Inputs but Unsafe Output: Benchmarking Cross-modality Safety Alignment of Large Vision-Language Model [73.8765529028288]
我々は、モダリティ間の安全アライメントを評価するために、セーフインプットとアンセーフアウトプット(SIUO)と呼ばれる新しい安全アライメントの課題を導入する。
この問題を実証的に調査するため,我々はSIUOを作成した。SIUOは,自己修復,違法行為,プライバシー侵害など,9つの重要な安全領域を含むクロスモダリティベンチマークである。
以上の結果から, クローズドおよびオープンソース両方のLVLMの安全性上の重大な脆弱性が明らかとなり, 複雑で現実的なシナリオを確実に解釈し, 応答する上で, 現行モデルが不十分であることが示唆された。
論文 参考訳(メタデータ) (2024-06-21T16:14:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。