論文の概要: SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.12982v1
- Date: Mon, 17 Nov 2025 05:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.671237
- Title: SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
- Title(参考訳): SafeGRPO:ルール統治政策最適化による自己回帰型マルチモーダルセーフティアライメント
- Authors: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
- 参考スコア(独自算出の注目度): 79.14563283347773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、印象的な推論と命令追従能力を示すが、その拡張されたモダリティ空間は、複雑なテキストと画像の相互作用から生じる新しい構成上の安全性リスクをもたらす。
このようなクロスモーダルカップリングは、個々の入力が良性である場合でも安全でないセマンティクスを生成し、現在のMLLMの脆弱な安全性を露呈する。
グループ相対政策最適化(GRPO: Group Relative Policy Optimization)は、人間の監督なしに自己回帰的な改善を提供するが、安全性を推論するための検証可能なシグナルは欠如している。
そこで本稿では,ルールを負った報酬構造をGRPOに統合した自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
SafeGRPOは、明示的な視覚的、テキスト的、複合安全タグを備えた構築されたSafeTag-VL-3Kデータセットに基づいて、構造化された推論と行動アライメントを強制するためのステップ誘導型安全思考を実行し、マルチモーダルな安全性意識、構成的堅牢性、および汎用性を犠牲にすることなく多様なベンチマーク間での推論安定性を大幅に改善する。
関連論文リスト
- GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - SafeCoT: Improving VLM Safety with Minimal Reasoning [5.452721786714111]
我々は、視覚言語モデルにおける拒絶動作を改善する軽量で解釈可能なフレームワークであるSafeCoTを紹介する。
SafeCoTは,訓練データに制限がある場合でも,過度な拒絶と一般化を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-06-10T03:13:50Z) - RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards [55.76285458905577]
大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。
ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。
我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:20:04Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。