論文の概要: AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning
- arxiv url: http://arxiv.org/abs/2510.14738v1
- Date: Thu, 16 Oct 2025 14:40:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.901667
- Title: AutoRubric-R1V: Rubric-Based Generative Rewards for Faithful Multimodal Reasoning
- Title(参考訳): AutoRubric-R1V:Fithful Multimodal ReasoningのためのRubric-based Generative Rewards
- Authors: Mengzhao Jia, Zhihan Zhang, Ignacio Cases, Zheyuan Liu, Meng Jiang, Peng Qi,
- Abstract要約: AutoRubric-R1Vは、RLVRとプロセスレベルの監視を統合するフレームワークである。
ルーブリックベースと結果の報酬を併用することにより、AutoRubric-R1Vは6つのマルチモーダル推論ベンチマークで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 25.984031524564188
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal large language models (MLLMs) have rapidly advanced from perception tasks to complex multi-step reasoning, yet reinforcement learning with verifiable rewards (RLVR) often leads to spurious reasoning since only the final-answer correctness is rewarded. To address this limitation, we propose AutoRubric-R1V, a framework that integrates RLVR with process-level supervision through automatically collected rubric-based generative rewards. Our key innovation lies in a scalable self-aggregation method that distills consistent reasoning checkpoints from successful trajectories, enabling problem-specific rubric construction without human annotation or stronger teacher models. By jointly leveraging rubric-based and outcome rewards, AutoRubric-R1V achieves state-of-the-art performance on six multimodal reasoning benchmarks and substantially improves reasoning faithfulness in dedicated evaluations.
- Abstract(参考訳): MLLM(Multimodal large language model)は、知覚タスクから複雑な多段階推論へと急速に進歩しているが、検証可能な報酬(RLVR)による強化学習は、最終回答の正しさのみが報われるため、しばしば急激な推論をもたらす。
この制限に対処するために,RLVRとプロセスレベルの監視を統合するフレームワークであるAutoRubric-R1Vを提案する。
私たちのキーとなるイノベーションは、成功軌道から一貫した推論チェックポイントを蒸留するスケーラブルな自己集約手法です。
ルーブリックベースと結果の報酬を併用することにより、AutoRubric-R1Vは6つのマルチモーダル推論ベンチマーク上で最先端のパフォーマンスを実現し、専用評価における推論忠実性を大幅に改善する。
関連論文リスト
- OpenRubrics: Towards Scalable Synthetic Rubric Generation for Reward Modeling and LLM Alignment [38.1645520104553]
OpenRubricsは,ルーブリック世代とルーブリックベースの報酬モデルをトレーニングするための,大規模な(プロンプト,エクスプリシット)ペアのコレクションである。
識別的・包括的評価信号を引き出すために,優先的・拒否的な応答を対比することにより,厳格な規則(単純質)と原則(簡易品質)の両方を導出するコントラスト生成(CRG)を導入する。
この結果から,ごみは費用対人評価と自動報酬モデリングのギャップを狭めるような,スケーラブルなアライメント信号を提供することがわかった。
論文 参考訳(メタデータ) (2025-10-09T03:31:26Z) - MEML-GRPO: Heterogeneous Multi-Expert Mutual Learning for RLVR Advancement [37.880962254812175]
Multi-Expert Mutual Learning GRPOは、多様な専門家のプロンプトを利用する革新的なフレームワークである。
MEML-GRPOはQwenでは平均4.89%、Llamaでは11.33%のパフォーマンス向上を達成した。
論文 参考訳(メタデータ) (2025-08-13T09:58:10Z) - R-Zero: Self-Evolving Reasoning LLM from Zero Data [47.8125954446991]
自己進化型大規模言語モデル(LLM)は、自身の経験から自律的に生成、精製、学習することで、超知性へのスケーラブルなパスを提供する。
このようなモデルを訓練するための既存の方法は、いまだに膨大な人為的なタスクやラベルに大きく依存している。
R-Zeroは、完全に自律的なフレームワークで、スクラッチから独自のトレーニングデータを生成する。
論文 参考訳(メタデータ) (2025-08-07T03:38:16Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Writing-Zero: Bridge the Gap Between Non-verifiable Tasks and Verifiable Rewards [11.149294285483782]
我々は、検証不可能なタスクと検証可能な報酬のギャップを埋める統一的なRLVRベースのトレーニングパラダイムを提案する。
本稿では,GenRMとBootstrapped Relative Policy Optimization (BRPO)アルゴリズムを提案する。
提案手法は,LLMが微調整を監督せずに堅牢な書込み機能を開発する上で有効である。
論文 参考訳(メタデータ) (2025-05-30T14:34:57Z) - Trust, But Verify: A Self-Verification Approach to Reinforcement Learning with Verifiable Rewards [67.86091419220816]
大規模言語モデル(LLM)は複雑な推論において非常に有望である。
一般的な問題は表面的な自己回帰であり、モデルが自身の出力をしっかりと検証できない。
本稿では、RISE(Reinforce Reasoning with Self-Verification)という新しいオンラインRLフレームワークについて紹介する。
論文 参考訳(メタデータ) (2025-05-19T17:59:31Z) - RM-R1: Reward Modeling as Reasoning [81.50471199906738]
Reasoning Reward Models (ReasRMs) は、報酬モデリングを推論タスクとして定式化する。
我々は推論指向のトレーニングパイプラインを提案し、ReasRMのファミリーであるRM-R1を訓練する。
我々のモデルは、平均して3つの報酬モデルベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-05-05T06:11:12Z) - GTR: Guided Thought Reinforcement Prevents Thought Collapse in RL-based VLM Agent Training [62.536191233049614]
検証結果報酬(RLVR)を用いた強化学習は、大規模言語モデル(LLM)におけるチェーン・オブ・ソート(CoT)推論を効果的にスケールアップした。
本研究は、24点やALFWorldの具体化タスクなど、複雑なカードゲームに関する広範な実験を通じてこの問題を調査する。
報酬が行動結果にのみ基づく場合、RLはVLMにおけるCoT推論の動機付けに失敗し、代わりに思考崩壊と呼ばれる現象が生じる。
論文 参考訳(メタデータ) (2025-03-11T15:17:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。