論文の概要: Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
- arxiv url: http://arxiv.org/abs/2509.19003v1
- Date: Tue, 23 Sep 2025 13:47:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-24 20:41:27.867913
- Title: Unveiling Chain of Step Reasoning for Vision-Language Models with Fine-grained Rewards
- Title(参考訳): 微細な逆流を有する視覚言語モデルのためのステップ推論の解離鎖
- Authors: Honghao Chen, Xingzhou Lou, Xiaokun Feng, Kaiqi Huang, Xinlong Wang,
- Abstract要約: 本稿では,視覚言語モデルにおけるステップ推論の連鎖について述べる。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
- 参考スコア(独自算出の注目度): 48.55501117313608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chain of thought reasoning has demonstrated remarkable success in large language models, yet its adaptation to vision-language reasoning remains an open challenge with unclear best practices. Existing attempts typically employ reasoning chains at a coarse-grained level, which struggles to perform fine-grained structured reasoning and, more importantly, are difficult to evaluate the reward and quality of intermediate reasoning. In this work, we delve into chain of step reasoning for vision-language models, enabling assessing reasoning step quality accurately and leading to effective reinforcement learning and inference-time scaling with fine-grained rewards. We present a simple, effective, and fully transparent framework, including the step-level reasoning data, process reward model (PRM), and reinforcement learning training. With the proposed approaches, our models set strong baselines with consistent improvements on challenging vision-language benchmarks. More importantly, we conduct a thorough empirical analysis and ablation study, unveiling the impact of each component and several intriguing properties of inference-time scaling. We believe this paper serves as a baseline for vision-language models and offers insights into more complex multimodal reasoning. Our dataset, PRM, and code will be available at https://github.com/baaivision/CoS.
- Abstract(参考訳): 思考推論の連鎖は、大きな言語モデルにおいて顕著な成功を収めてきたが、その視覚言語推論への適応は、不明瞭なベストプラクティスにおいてオープンな課題である。
既存の試みでは、典型的には粗粒度レベルでの推論連鎖を採用しており、細粒度の構造的推論を行うのに苦労しており、さらに重要なことは、中間的推論の報酬と品質を評価するのが困難である。
本研究では,視覚言語モデルのステップ推論の連鎖を探索し,推論のステップ品質を正確に評価し,より詳細な報酬を伴う効果的な強化学習と推論時間スケーリングを実現する。
ステップレベルの推論データ、プロセス報酬モデル(PRM)、強化学習トレーニングを含む、シンプルで効果的で完全に透明なフレームワークを提案する。
提案手法により,本モデルでは,視力ベンチマークの課題に対して一貫した改良を加えながら,強力なベースラインを設定した。
さらに重要なことは、各コンポーネントの影響と、推論時間スケーリングの興味深いいくつかの特性を明らかにする、徹底的な経験的分析およびアブレーション研究を行うことである。
本稿では、視覚言語モデルのベースラインとして機能し、より複雑なマルチモーダル推論に関する洞察を提供する。
私たちのデータセット、PRM、コードはhttps://github.com/baaivision/CoS.comで公開されます。
関連論文リスト
- Audio-Thinker: Guiding Audio Language Model When and How to Think via Reinforcement Learning [41.255832127671205]
大規模音声言語モデル(LALM)の推論能力を高めるための強化学習フレームワークであるAudio-Thinkerを提案する。
提案手法は適応的思考精度報酬を導入し,タスクに基づいた推論戦略を動的に調整する。
実験の結果,Audio-Thinkerモデルは,様々なベンチマークタスクにおいて,既存の推論指向のLALMよりも優れていた。
論文 参考訳(メタデータ) (2025-08-11T14:41:10Z) - Dancing with Critiques: Enhancing LLM Reasoning with Stepwise Natural Language Self-Critique [66.94905631175209]
我々は、段階的に自然言語の自己批判(PANEL)を行う新しい推論時間スケーリング手法を提案する。
ステップレベルの探索プロセスのガイドとして、自己生成の自然言語批判をフィードバックとして採用している。
このアプローチは、タスク固有の検証と関連するトレーニングオーバーヘッドの必要性を回避します。
論文 参考訳(メタデータ) (2025-03-21T17:59:55Z) - OpenVLThinker: Complex Vision-Language Reasoning via Iterative SFT-RL Cycles [91.88062410741833]
我々はOpenVLThinkerを紹介した。OpenVLThinkerはオープンソースの大規模視覚言語モデル(LVLM)の1つである。
OpenVLThinker-7Bは、数学的および一般的な推論を必要とする6つのベンチマークで一貫して性能を向上することを示す。
論文 参考訳(メタデータ) (2025-03-21T17:52:43Z) - Causality can systematically address the monsters under the bench(marks) [64.36592889550431]
ベンチマークはさまざまなバイアス、アーティファクト、リークに悩まされている。
モデルは、調査の不十分な障害モードのため、信頼できない振る舞いをする可能性がある。
因果関係はこれらの課題を体系的に解決するための 理想的な枠組みを提供します
論文 参考訳(メタデータ) (2025-02-07T17:01:37Z) - Measuring and Improving Chain-of-Thought Reasoning in Vision-Language Models [61.28463542324576]
視覚言語モデル(VLM)は近年,人間のような出力を生成できる視覚アシスタントとして,強力な有効性を示している。
我々は、既存の最先端のVLMを評価し、最高の性能モデルでさえ、強力な視覚的推論能力と一貫性を示すことができないことを発見した。
本稿では,VLMの推論性能と一貫性の向上を目的とした2段階トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-08T17:49:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。