論文の概要: GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
- arxiv url: http://arxiv.org/abs/2505.11049v1
- Date: Fri, 16 May 2025 09:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-19 14:36:14.562156
- Title: GuardReasoner-VL: Safeguarding VLMs via Reinforced Reasoning
- Title(参考訳): GuardReasoner-VL:強化推論によるVLMの保護
- Authors: Yue Liu, Shengfang Zhai, Mingzhe Du, Yulin Chen, Tri Cao, Hongcheng Gao, Cheng Wang, Xinfeng Li, Kun Wang, Junfeng Fang, Jiaheng Zhang, Bryan Hooi,
- Abstract要約: 本稿では,GardReasoner-VLと呼ばれる推論に基づく新しいVLMガードモデルを提案する。
123Kサンプルと631K推論ステップを備えた推論コーパスであるGuardReasoner-VLTrainを構築する。
性能とトークン効率のバランスをとるために,精度,フォーマット,トークンコストを一体化して,長さ認識型安全報酬を設計する。
- 参考スコア(独自算出の注目度): 43.89818154399979
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To enhance the safety of VLMs, this paper introduces a novel reasoning-based VLM guard model dubbed GuardReasoner-VL. The core idea is to incentivize the guard model to deliberatively reason before making moderation decisions via online RL. First, we construct GuardReasoner-VLTrain, a reasoning corpus with 123K samples and 631K reasoning steps, spanning text, image, and text-image inputs. Then, based on it, we cold-start our model's reasoning ability via SFT. In addition, we further enhance reasoning regarding moderation through online RL. Concretely, to enhance diversity and difficulty of samples, we conduct rejection sampling followed by data augmentation via the proposed safety-aware data concatenation. Besides, we use a dynamic clipping parameter to encourage exploration in early stages and exploitation in later stages. To balance performance and token efficiency, we design a length-aware safety reward that integrates accuracy, format, and token cost. Extensive experiments demonstrate the superiority of our model. Remarkably, it surpasses the runner-up by 19.27% F1 score on average. We release data, code, and models (3B/7B) of GuardReasoner-VL at https://github.com/yueliu1999/GuardReasoner-VL/
- Abstract(参考訳): 本稿では, VLMの安全性を高めるために, GuardReasoner-VLと呼ばれる新しい推論に基づくVLMガードモデルを提案する。
中心となる考え方は、オンラインRLを通じてモデレーション決定を行う前に、ガードモデルを熟考的に理性的に判断するためのインセンティブを与えることである。
まず、123Kサンプルと631K推論ステップを備えた推論コーパスであるGuardReasoner-VLTrainを構築する。
そして,それに基づいて,SFTによるモデル推論能力のコールドスタートを行う。
さらに、オンラインRLによるモデレーションに関する推論をさらに強化する。
具体的には, サンプルの多様性と難易度を高めるために, 提案した安全性を考慮したデータ結合によるデータ拡張を行い, 拒絶サンプリングを行う。
さらに,動的クリッピングパラメータを用いて,早期の探索と後期のエクスプロイトを促進する。
性能とトークン効率のバランスをとるために,精度,フォーマット,トークンコストを一体化して,長さ認識型安全報酬を設計する。
大規模な実験は、我々のモデルの優越性を実証している。
平均して19.27%の得点を記録した。
https://github.com/yueliu1999/GuardReasoner-VL/でGuardReasoner-VLのデータ、コード、モデル(3B/7B)をリリースします。
関連論文リスト
- Safe RLHF-V: Safe Reinforcement Learning from Human Feedback in Multimodal Large Language Models [34.66687625996389]
汎用AIアシスタントの開発にはMLLM(Multimodal large language model)が不可欠である。
差別、誤報、倫理基準違反などの望ましくない行動を防止するために、MLLMが安全に整列されていることをどうやって保証できるのか。
安全性と安全性を共同で最適化する,初のマルチモーダル安全アライメントフレームワークであるSafe RLHF-Vを提案する。
論文 参考訳(メタデータ) (2025-03-22T07:40:20Z) - From Captions to Rewards (CAREVL): Leveraging Large Language Model Experts for Enhanced Reward Modeling in Large Vision-Language Models [58.16075709485292]
CAREVLは、高信頼データと低信頼データの両方を確実に利用することにより、嗜好報酬モデリングの新しい手法である。
CAREVL は VL-RewardBench と MLLM-as-a-Judge ベンチマークで従来の蒸留法よりも性能が向上した。
論文 参考訳(メタデータ) (2025-03-08T16:13:18Z) - SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities [21.317245896641136]
ロングチェーン・オブ・シークレット(CoT)推論は、構造化中間ステップを生成し、推論能力を高める。
大規模言語モデル(LLM)の安全性に関する現在の研究は、通常、LRMの長いCoTスタイルの出力を見越して、短応答に焦点を当てている。
論文 参考訳(メタデータ) (2025-02-17T16:57:56Z) - OverThink: Slowdown Attacks on Reasoning LLMs [41.733352553317204]
OVERTHINK攻撃は、推論モデルを操作するサードパーティアプリケーションのコストを増幅する可能性がある。
その結果、FreshQAデータセットでは18倍のスローダウン、SQuADデータセットでは46倍のスローダウンが得られた。
論文 参考訳(メタデータ) (2025-02-04T18:12:41Z) - GuardReasoner: Towards Reasoning-based LLM Safeguards [63.53800124080227]
本稿では, LLM の新たなセーフガードである GuardReasoner を提案する。
GuardReasonerTrainデータセットは、117Kのサンプルと460Kの詳細な推論ステップで構成されています。
次に、ガードモデルの推論能力を解き放つための推論SFTを導入する。
このように、GuardReasonerはより良いパフォーマンス、説明可能性、一般化可能性を達成する。
論文 参考訳(メタデータ) (2025-01-30T17:06:06Z) - Language Models are Hidden Reasoners: Unlocking Latent Reasoning Capabilities via Self-Rewarding [74.31981011985681]
大きな言語モデル(LLM)は印象的な機能を示しているが、それでも複数のステップを必要とする複雑な推論タスクに苦戦している。
LaTRO(LaTent Reasoning Optimization)は、潜在分布からのサンプリングとして推論を定式化するためのフレームワークである。
複数のモデルアーキテクチャを用いて、GSM8KおよびARC-Challengeデータセットの実験を通してLaTROを検証する。
論文 参考訳(メタデータ) (2024-11-06T22:02:30Z) - Improve Vision Language Model Chain-of-thought Reasoning [86.83335752119741]
視覚言語モデル(VLM)におけるチェーン・オブ・シント(CoT)推論は、解釈可能性と信頼性を向上させるために不可欠である。
我々は,より詳細な回答を必要とする推論タスクに対して,短時間でVLMを訓練することはよくないことを示す。
論文 参考訳(メタデータ) (2024-10-21T17:00:06Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
本研究では,Large Language Models (LLMs) の安全性チューニングにおける重要なギャップについて考察する。
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を与える新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは、(1)安全応答の開始に有害な応答のセグメントを付加することにより、安全でないコンテンツを認識・回避するようモデルに訓練する、(1)有害応答前フィックスによる最大限の類似度推定、(2)有害応答の開始を通して潜在的害から安全拒絶へ継続的に移行する能力を持つ強化遷移最適化(RTO)という2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。