論文の概要: SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
- arxiv url: http://arxiv.org/abs/2511.12982v1
- Date: Mon, 17 Nov 2025 05:09:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.671237
- Title: SafeGRPO: Self-Rewarded Multimodal Safety Alignment via Rule-Governed Policy Optimization
- Title(参考訳): SafeGRPO:ルール統治政策最適化による自己回帰型マルチモーダルセーフティアライメント
- Authors: Xuankun Rong, Wenke Huang, Tingfeng Wang, Daiguo Zhou, Bo Du, Mang Ye,
- Abstract要約: マルチモーダルな大言語モデル (MLLM) は印象的な推論と命令追従能力を示した。
クロスモーダル結合は、個々の入力が良性である場合でも、安全でないセマンティクスを生成する。
自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
- 参考スコア(独自算出の注目度): 79.14563283347773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have demonstrated impressive reasoning and instruction-following capabilities, yet their expanded modality space introduces new compositional safety risks that emerge from complex text-image interactions. Such cross-modal couplings can produce unsafe semantics even when individual inputs are benign, exposing the fragile safety awareness of current MLLMs. While recent works enhance safety by guiding models to reason about potential risks, unregulated reasoning traces may compromise alignment; although Group Relative Policy Optimization (GRPO) offers self-rewarded refinement without human supervision, it lacks verifiable signals for reasoning safety. To address this, we propose SafeGRPO a self-rewarded multimodal safety alignment framework that integrates rule-governed reward construction into GRPO, enabling interpretable and verifiable optimization of reasoning safety. Built upon the constructed SafeTag-VL-3K dataset with explicit visual, textual, and combined safety tags, SafeGRPO performs step-guided safety thinking to enforce structured reasoning and behavior alignment, substantially improving multimodal safety awareness, compositional robustness, and reasoning stability across diverse benchmarks without sacrificing general capabilities.
- Abstract(参考訳): マルチモーダル・大規模言語モデル(MLLM)は、印象的な推論と命令追従能力を示すが、その拡張されたモダリティ空間は、複雑なテキストと画像の相互作用から生じる新しい構成上の安全性リスクをもたらす。
このようなクロスモーダルカップリングは、個々の入力が良性である場合でも安全でないセマンティクスを生成し、現在のMLLMの脆弱な安全性を露呈する。
グループ相対政策最適化(GRPO: Group Relative Policy Optimization)は、人間の監督なしに自己回帰的な改善を提供するが、安全性を推論するための検証可能なシグナルは欠如している。
そこで本稿では,ルールを負った報酬構造をGRPOに統合した自己回帰型マルチモーダル安全アライメントフレームワークであるSafeGRPOを提案する。
SafeGRPOは、明示的な視覚的、テキスト的、複合安全タグを備えた構築されたSafeTag-VL-3Kデータセットに基づいて、構造化された推論と行動アライメントを強制するためのステップ誘導型安全思考を実行し、マルチモーダルな安全性意識、構成的堅牢性、および汎用性を犠牲にすることなく多様なベンチマーク間での推論安定性を大幅に改善する。
関連論文リスト
- Beyond Static Alignment: Hierarchical Policy Control for LLM Safety via Risk-Aware Chain-of-Thought [5.251527748612469]
大きな言語モデル(LLM)は、静的で一大の安全ポリシーのため、基本的な安全性のトレードオフに直面します。
我々は、明示的でリスクを意識した推論による動的安全制御のためのフレームワーク、textbfPACT(Prompt-Thought Action via Chain-of-Thought)を提案する。
論文 参考訳(メタデータ) (2026-02-06T12:20:01Z) - PoSafeNet: Safe Learning with Poset-Structured Neural Nets [49.854863600271614]
既存のアプローチは、しばしば複数の安全制約を均一に、または固定された優先命令によって強制し、実現不可能と不安定な振る舞いを引き起こす。
我々は、この設定を擬似構造的安全性として定式化し、安全制約を部分的に順序づけられた集合としてモデル化し、安全構成を政策クラスの構造的特性として扱う。
この定式化に基づいて、逐次クローズドフォームプロジェクションを介して安全性を強制する、識別可能な神経安全層であるPoSafeNetを提案する。
論文 参考訳(メタデータ) (2026-01-29T22:03:32Z) - GSPR: Aligning LLM Safeguards as Generalizable Safety Policy Reasoners [60.49708196646694]
大規模言語モデル(LLM)は、様々な領域にわたる多くのアプリケーションに統合されつつある。
本稿では,安全でない入力プロンプトとLLMの出力を不正に検出する汎用安全推論器GSPRを提案する。
我々のGSPRは、安全とカテゴリー予測の両方のタスクにおいて、既存の安全ガードレールの推論能力を大幅に改善する。
論文 参考訳(メタデータ) (2025-09-29T08:07:45Z) - Automating Steering for Safe Multimodal Large Language Models [58.36932318051907]
基礎モデルの微調整を必要とせず,モジュール型かつ適応型推論時間介入技術であるAutoSteerを導入する。
AutoSteerは,(1)モデル内部層間の最も安全性に関連のある識別を自動的に行う新しい安全意識スコア(SAS),(2)中間表現から有害な出力の可能性を推定するために訓練された適応安全プローバ,(3)安全性のリスクが検出された場合に生成を選択的に介入する軽量な拒絶ヘッドの3つのコアコンポーネントを組み込んだ。
論文 参考訳(メタデータ) (2025-07-17T16:04:55Z) - MSR-Align: Policy-Grounded Multimodal Alignment for Safety-Aware Reasoning in Vision-Language Models [18.760785302224175]
VLM(Vision-Language Models)は、多モーダル推論タスクにおいて、チェーンオブ思考能力の向上を通じて、顕著な進歩を遂げている。
既存の安全アライメントアプローチは、マルチモーダル入力によって引き起こされる複雑でニュアンスな脅威に対処するには不十分である。
MSR-Alignは、視覚とテキストのモダリティの双方にわたって標準化された安全ポリシーよりも、きめ細かい、熟考的な推論をサポートしている。
論文 参考訳(メタデータ) (2025-06-24T02:37:59Z) - SafeCoT: Improving VLM Safety with Minimal Reasoning [5.452721786714111]
我々は、視覚言語モデルにおける拒絶動作を改善する軽量で解釈可能なフレームワークであるSafeCoTを紹介する。
SafeCoTは,訓練データに制限がある場合でも,過度な拒絶と一般化を著しく低減することを示す。
論文 参考訳(メタデータ) (2025-06-10T03:13:50Z) - RSafe: Incentivizing proactive reasoning to build robust and adaptive LLM safeguards [55.76285458905577]
大規模言語モデル(LLM)は、意図的な安全確保努力にもかかわらず、脆弱性を示し続けている。
ポリシー違反のリスクから保護するために、外部ガードモデルによるシステムレベルのモデレーションが一般的な緩和戦略として現れている。
我々は、特定の安全ポリシーの範囲内で堅牢な保護を提供するためのガイド付き安全推論を行う適応型推論ベースの安全ガードであるRSafeを提案する。
論文 参考訳(メタデータ) (2025-06-09T13:20:04Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - Enhancing Safety in Reinforcement Learning with Human Feedback via Rectified Policy Optimization [16.35399722653875]
我々は,大規模言語モデル(LLM)における有用性と安全性(無害性)のバランスをとるために,RePO(Rectified Policy Optimization)を提案する。
RePOの中核は、修正されたポリシー勾配によって駆動されるポリシー更新メカニズムであり、すべてのプロンプトの厳格な安全違反を罰し、ほぼすべてのプロンプトの安全性を高める。
論文 参考訳(メタデータ) (2024-10-25T19:08:23Z) - Towards Comprehensive Post Safety Alignment of Large Language Models via Safety Patching [74.62818936088065]
textscSafePatchingは包括的なPSAのための新しいフレームワークである。
textscSafePatchingはベースラインメソッドよりも包括的なPSAを実現する。
textscSafePatchingは、連続的なPSAシナリオにおいて、その優位性を示している。
論文 参考訳(メタデータ) (2024-05-22T16:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。