論文の概要: R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
- arxiv url: http://arxiv.org/abs/2503.12937v1
- Date: Mon, 17 Mar 2025 08:51:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 16:01:02.457670
- Title: R1-VL: Learning to Reason with Multimodal Large Language Models via Step-wise Group Relative Policy Optimization
- Title(参考訳): R1-VL:ステップワイドグループ相対ポリシー最適化によるマルチモーダル大言語モデルでの推論学習
- Authors: Jingyi Zhang, Jiaxing Huang, Huanjin Yao, Shunyu Liu, Xikun Zhang, Shijian Lu, Dacheng Tao,
- Abstract要約: そこで本稿では,MLLMの自己改善を支援するオンライン強化学習フレームワークを提案する。
StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入した。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
- 参考スコア(独自算出の注目度): 86.32257216965229
- License:
- Abstract: Recent studies generally enhance MLLMs' reasoning capabilities via supervised fine-tuning on high-quality chain-of-thought reasoning data, which often leads models to merely imitate successful reasoning paths without understanding what the wrong reasoning paths are. In this work, we aim to enhance the MLLMs' reasoning ability beyond passively imitating positive reasoning paths. To this end, we design Step-wise Group Relative Policy Optimization (StepGRPO), a new online reinforcement learning framework that enables MLLMs to self-improve reasoning ability via simple, effective and dense step-wise rewarding. Specifically, StepGRPO introduces two novel rule-based reasoning rewards: Step-wise Reasoning Accuracy Reward (StepRAR) and Step-wise Reasoning Validity Reward (StepRVR). StepRAR rewards the reasoning paths that contain necessary intermediate reasoning steps via a soft key-step matching technique, while StepRAR rewards reasoning paths that follow a well-structured and logically consistent reasoning process through a reasoning completeness and logic evaluation strategy. With the proposed StepGRPO, we introduce R1-VL, a series of MLLMs with outstanding capabilities in step-by-step reasoning. Extensive experiments over 8 benchmarks demonstrate the superiority of our methods.
- Abstract(参考訳): 近年の研究では、MLLMの推論能力は、高品質なチェーン・オブ・ソート推論データに基づく微調整によって向上しており、しばしばモデルが間違った推論経路が何であるかを理解することなく、単に成功した推論経路を模倣するだけとなる。
本研究では,肯定的推論経路を受動的に模倣するだけでなく,MLLMの推論能力を高めることを目的とする。
この目的のために、我々は、MLLMがシンプルで効果的で密度の高いステップワイド報酬を通じて推論能力を自己改善できる新しいオンライン強化学習フレームワークであるStepGRPO(StepGRPO)を設計する。
具体的には、StepGRPOは、Step-wise Reasoning Accuracy Reward (StepRAR)とStep-wise Reasoning Validity Reward (StepRVR)の2つの新しいルールベースの推論報酬を導入している。
StepRARはソフトキーステップマッチング技術を通じて必要な中間推論ステップを含む推論パスを、StepRARは推論完全性および論理評価戦略を通じて、適切に構造化され論理的に整合した推論プロセスに従う推論パスを報いる。
提案するStepGRPOでは,ステップバイステップ推論に優れた機能を持つMLLMのシリーズであるR1-VLを紹介する。
8つのベンチマークに対する大規模な実験は、我々の方法の優位性を実証している。
関連論文リスト
- A Survey on Feedback-based Multi-step Reasoning for Large Language Models on Mathematics [9.681821524089761]
我々は,LLMの多段階数学推論を強化するために,ステップレベルのフィードバックと結果レベルの戦略を調査する。
LLMのスケーリングにおいて,多段階の推論が重要な要素となるため,さらなる研究の促進と理解を深めるための基盤の確立が望まれる。
論文 参考訳(メタデータ) (2025-02-20T07:31:00Z) - Step-KTO: Optimizing Mathematical Reasoning through Stepwise Binary Feedback [94.25162866972077]
Step-KTOは、プロセスレベルと結果レベルのバイナリフィードバックを組み合わせたトレーニングフレームワークである。
実験の結果,Step-KTOは最終回答の精度と中間推論の質の両方を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-18T15:38:03Z) - Hint Marginalization for Improved Reasoning in Large Language Models [24.67507932821155]
大規模言語モデル(LLM)の推論能力を高める新しいアルゴリズムフレームワークであるMarginalizationを提案する。
提案手法は,モンテカルロ近似を基礎となる回答分布の反復的サンプリング戦略とみなすことができる。
算術的推論のためのいくつかのベンチマークデータセットに対する経験的評価は、提案手法の優位性を示している。
論文 参考訳(メタデータ) (2024-12-17T19:45:53Z) - RAG-Star: Enhancing Deliberative Reasoning with Retrieval Augmented Verification and Refinement [85.08223786819532]
既存の大規模言語モデル(LLM)は、例外的な問題解決能力を示すが、複雑な推論タスクに苦労する可能性がある。
検索情報を統合した新しいRAG手法である textbfRAG-Star を提案する。
Llama-3.1-8B-Instruct と GPT-4o を併用した実験により,RAG-Star は従来のRAG と推理法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2024-12-17T13:05:36Z) - Large Language Models as an Indirect Reasoner: Contrapositive and Contradiction for Automated Reasoning [74.90592233107712]
本稿では,直接推論 (DR) と間接推論 (IR) を並列な複数の推論経路として考慮し,最終解を導出する直接間接推論 (DIR) 手法を提案する。
我々のDIR法は単純だが有効であり、既存のCoT法と簡単に統合できる。
論文 参考訳(メタデータ) (2024-02-06T03:41:12Z) - DetermLR: Augmenting LLM-based Logical Reasoning from Indeterminacy to Determinacy [76.58614128865652]
非決定性から決定性への進化として推論過程を再考する新しい視点であるDetermLRを提案する。
まず、既知の条件を次の2つのタイプに分類する: 決定的および不決定的前提 これは、推論プロセスのオール方向を提供し、不決定的データを段階的決定的洞察に変換する際のLCMを導く。
我々は、利用可能な施設の保存と抽出、推論メモリによる推論パスの自動化、そしてその後の推論ステップに関する歴史的推論の詳細を保存する。
論文 参考訳(メタデータ) (2023-10-28T10:05:51Z) - Let's reward step by step: Step-Level reward model as the Navigators for
Reasoning [64.27898739929734]
Process-Supervised Reward Model (PRM)は、トレーニングフェーズ中にステップバイステップのフィードバックをLLMに提供する。
LLMの探索経路を最適化するために,PRMからのステップレベルのフィードバックを応用した欲求探索アルゴリズムを提案する。
提案手法の汎用性を探るため,コーディングタスクのステップレベル報酬データセットを自動生成する手法を開発し,コード生成タスクにおける同様の性能向上を観察する。
論文 参考訳(メタデータ) (2023-10-16T05:21:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。