論文の概要: Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2512.07141v1
- Date: Mon, 08 Dec 2025 03:46:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.702498
- Title: Think-Reflect-Revise: A Policy-Guided Reflective Framework for Safety Alignment in Large Vision Language Models
- Title(参考訳): Think-Reflect-Revise:大規模視覚言語モデルにおける安全アライメントのためのポリシー指向のリフレクティブフレームワーク
- Authors: Fenghua Weng, Chaochao Lu, Xia Hu, Wenqi Shao, Wenjie Wang,
- Abstract要約: Think-Reflect-Revise (TRR)は、LVLM(Large Vision Language Models)の安全性向上を目的としたトレーニングフレームワークである。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通じてポリシー誘導反射を強化する。
- 参考スコア(独自算出の注目度): 58.17589701432514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As multimodal reasoning improves the overall capabilities of Large Vision Language Models (LVLMs), recent studies have begun to explore safety-oriented reasoning, aiming to enhance safety awareness by analyzing potential safety risks during the reasoning process before generating the final response. Although such approaches improve safety awareness and interpretability, this single-pass think-then-answer paradigm remains vulnerable to contextual or visual jailbreak attacks. This reveals a critical flaw: single-pass reasoning may overlook explicit harmful content in its own output. Our key insight is to exploit this wasted signal through reflection, which can effectively leverage the malicious content revealed in the first-pass reasoning to enable genuine self-correction and prevent unsafe generations. Motivated by this, we propose Think-Reflect-Revise (TRR), a three-stage training framework designed to enhance the safety alignment of LVLMs through policy-guided self-reflection. We first build a Reflective Safety Reasoning (ReSafe) dataset with 5,000 examples that follow a think-reflect-revise process. We then fine-tune the target model using the ReSafe dataset to initialize reflective behavior, and finally reinforce policy-guided reflection through reinforcement learning. Experimental results show that TRR substantially improves the safety performance of LVLMs across both safety-awareness benchmarks and jailbreak attack evaluations, increasing the overall safe response rate from 42.8% to 87.7% on Qwen2.5-VL-7B, while preserving stable performance on general benchmarks such as MMMU and MMStar. The project page is available at https://think-reflect-revise.github.io/.
- Abstract(参考訳): マルチモーダル推論がLVLM(Large Vision Language Models)の全体的な能力を向上させる中、最近の研究は、最終応答を生成する前に、推論プロセス中に潜在的な安全リスクを分析して安全性の意識を高めることを目的として、安全指向推論の探求を始めている。
このようなアプローチは、安全性の認識と解釈可能性を改善するが、このシングルパスシンク・アンサー・パラダイムは、文脈的または視覚的ジェイルブレイク攻撃に弱いままである。
シングルパス推論は、自身のアウトプットで明らかな有害なコンテンツを見落としてしまう可能性がある。
我々の重要な洞察は、この無駄な信号をリフレクションを通じて活用することであり、これは第一パス推論で明らかになった悪意のあるコンテンツを効果的に活用し、真の自己補正を可能にし、安全でない世代を防ぐことができる。
政策誘導型自己回帰によるLVLMの安全性向上を目的とした3段階トレーニングフレームワークであるThink-Reflect-Revise(TRR)を提案する。
まず、リフレクティブセーフティ推論(ReSafe)データセットを5000の例で構築し、シンク・リフレクティブ・リフレクティブ・プロセスに従っています。
次に、ReSafeデータセットを用いてターゲットモデルを微調整し、反射行動の初期化を行い、最後に強化学習を通してポリシー誘導反射を強化する。
実験の結果,TRRは安全性評価とジェイルブレイク攻撃評価の両方でLVLMの安全性を著しく向上し,Qwen2.5-VL-7Bでは全体の安全応答率が42.8%から87.7%に向上し,MMMUやMMStarなどの一般的なベンチマークでは安定した性能を維持した。
プロジェクトのページはhttps://think-reflect-revise.github.io/.comで公開されている。
関連論文リスト
- Breaking the Safety-Capability Tradeoff: Reinforcement Learning with Verifiable Rewards Maintains Safety Guardrails in LLMs [3.198812241868092]
検証可能な報酬(RLVR)による強化学習は、客観的に測定可能なタスクのモデルを最適化する有望な代替手段として登場した。
RLVRにおける安全特性の総合的・実証的な分析を行った。
実証実験により,RLVRは安全ガードレールの維持・改善を図りながら推論能力を同時に向上できることを示す。
論文 参考訳(メタデータ) (2025-11-26T04:36:34Z) - ARMOR: Aligning Secure and Safe Large Language Models via Meticulous Reasoning [64.32925552574115]
ARMORは、jailbreak戦略を分析し、コアインテントを抽出する、大規模な言語モデルである。
ARMORは最先端の安全性能を達成し、平均有害率は0.002であり、高度な最適化ベースのジェイルブレイクに対する攻撃成功率は0.06である。
論文 参考訳(メタデータ) (2025-07-14T09:05:54Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - SafeKey: Amplifying Aha-Moment Insights for Safety Reasoning [76.56522719330911]
大規模推論モデル(LRM)は、応答する前に明示的に推論する新しい世代パラダイムを導入する。
LRMは有害なクエリや敵の攻撃に対して大きな安全リスクをもたらす。
キー文中の安全アハモーメントをより活性化するSafeKeyを提案する。
論文 参考訳(メタデータ) (2025-05-22T03:46:03Z) - Reasoning-to-Defend: Safety-Aware Reasoning Can Defend Large Language Models from Jailbreaking [54.10710423370126]
本稿では,大規模言語モデルの生成プロセスに安全性を考慮した推論機構を統合する訓練パラダイムであるReasoning-to-Defend(R2D)を提案する。
CPOは、与えられた対話の安全性に対するモデルの認識を高める。
実験によると、R2Dは様々な攻撃を効果的に軽減し、元の性能を維持しながら全体の安全性を向上させる。
論文 参考訳(メタデータ) (2025-02-18T15:48:46Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。