論文の概要: Vero: An Open RL Recipe for General Visual Reasoning
- arxiv url: http://arxiv.org/abs/2604.04917v1
- Date: Mon, 06 Apr 2026 17:56:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-07 15:49:19.32968
- Title: Vero: An Open RL Recipe for General Visual Reasoning
- Title(参考訳): Vero: 一般的なビジュアル推論のためのオープンなRLレシピ
- Authors: Gabriel Sarch, Linrong Cai, Qunzhong Wang, Haoyang Wu, Danqi Chen, Zhuang Liu,
- Abstract要約: Veroは、様々な視覚的推論タスクにまたがる既存のオープンウェイトモデルに適合または超える、完全にオープンなビジョン言語モデル(VLM)のファミリーである。
Veroは最先端のパフォーマンスを実現し、4つのベースモデルを平均3.7-5.5ポイント改善した。
- 参考スコア(独自算出の注目度): 19.453258513295506
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What does it take to build a visual reasoner that works across charts, science, spatial understanding, and open-ended tasks? The strongest vision-language models (VLMs) show such broad visual reasoning is within reach, but the recipe behind them remains unclear, locked behind proprietary reinforcement learning (RL) pipelines with non-public data. We introduce Vero, a family of fully open VLMs that matches or exceeds existing open-weight models across diverse visual reasoning tasks. We scale RL data and rewards across six broad task categories, constructing Vero-600K, a 600K-sample dataset from 59 datasets, and designing task-routed rewards that handle heterogeneous answer formats. Vero achieves state-of-the-art performance, improving over four base models by 3.7-5.5 points on average across VeroEval, our suite of 30 challenging benchmarks. Starting from Qwen3-VL-8B-Instruct, Vero outperforms Qwen3-VL-8B-Thinking on 23 of 30 benchmarks without additional proprietary thinking data. When trained from the same base model, Vero-600K exceeds existing RL datasets across task categories. Systematic ablations reveal that different task categories elicit qualitatively distinct reasoning patterns that transfer poorly in isolation, suggesting that broad data coverage is the primary driver of strong RL scaling. All data, code, and models are released.
- Abstract(参考訳): チャート、科学、空間的理解、オープンなタスクにまたがって機能する視覚的推論器を構築するには、何が必要でしょうか?
最強の視覚言語モデル(VLM)は、そのような広い視覚的推論の範囲内であるが、その背後にあるレシピは、公開されていないデータを持つ独自の強化学習(RL)パイプラインの背後に固定されている。
さまざまな視覚的推論タスクにまたがって、既存のオープンウェイトモデルにマッチまたは超越した、完全にオープンなVLMのファミリーであるVeroを紹介します。
59のデータセットから600KサンプルのデータセットであるVero-600Kを構築し、不均一な回答フォーマットを扱うタスクトラウト報酬を設計し、RLデータと報酬を6つの幅広いタスクカテゴリに分散します。
Veroは最先端のパフォーマンスを実現し、4つのベースモデルを平均3.7-5.5ポイント改善しました。
Qwen3-VL-8B-インストラクタから始まり、VeroはQwen3-VL-8B-Thinkingを30ベンチマーク中23ベンチマークで上回っている。
同じベースモデルからトレーニングすると、Vero-600Kはタスクカテゴリにわたる既存のRLデータセットを超えます。
システマティック・アブリケーションは、異なるタスクカテゴリが分離が不十分な定性的に異なる推論パターンを持ち込み、広範なデータカバレッジが強力なRLスケーリングの原動力であることを示唆している。
すべてのデータ、コード、モデルがリリースされます。
関連論文リスト
- From Sight to Insight: Improving Visual Reasoning Capabilities of Multimodal Models via Reinforcement Learning [12.548754243700657]
マルチモーダルな大言語モデル(MLLM)は、視覚情報の統合に欠ける推論を生成する。
このようなタスクにおいて視覚的知覚が重要なボトルネックであることを示し、クロード3.5では26.7%、クロード3.7では23.6%の利得を得た。
我々は,イメージ理解,思考ステップ,回答精度など,異なる推論的側面を対象とする6つの報酬関数を設計・評価する。
Qwen-2.5-VL-7Bの実験では、ベースモデルよりも5.56%改善されており、ドメイン内設定とドメイン外設定の両方で一貫して改善されている。
論文 参考訳(メタデータ) (2026-01-01T05:19:28Z) - OpenDataArena: A Fair and Open Arena for Benchmarking Post-Training Dataset Value [74.80873109856563]
OpenDataArena(ODA)は、トレーニング後のデータの本質的な価値をベンチマークするために設計された、総合的でオープンなプラットフォームである。
ODAは4つの主要な柱からなる包括的なエコシステムを確立している。 (i) 多様なモデル間で公平でオープンな比較を保証する統一的なトレーニング評価パイプライン、 (ii) 異なる軸数に沿ってデータ品質をプロファイリングする多次元スコアリングフレームワーク、 (iii) データセットの系図を視覚化してコンポーネントソースを識別するインタラクティブなデータ系統探索である。
論文 参考訳(メタデータ) (2025-12-16T03:33:24Z) - GRAID: Enhancing Spatial Reasoning of VLMs Through High-Fidelity Data Generation [31.365285503503475]
標準検出器から2次元ボックスを用いて空間推論を学習するためのフレームワークを提案する。
GRAIDデータに基づいて訓練すると、モデルは過剰詳細保持型を一般化する空間的推論概念を学習する。
また、すべての質問タイプでトレーニングすると、いくつかの既存のベンチマークの改善が達成されることを示す。
論文 参考訳(メタデータ) (2025-10-25T02:07:23Z) - Reinforced Visual Perception with Tools [66.79840157663237]
本稿では,GRPOに基づく新しいRLアルゴリズムを提案する。
本手法は,複数の知覚重度ベンチマークにおいて,最先端の性能を実現する。
我々のReVPT-3BとReVPT-7BはCV-Benchでインストラクションモデルを9.03%、9.44%上回っている。
論文 参考訳(メタデータ) (2025-09-01T17:57:49Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Retrieval-Based Interleaved Visual Chain-of-Thought in Real-World Driving Scenarios [69.00444996464662]
RIV-CoT(Retrieval-based Interleaved Visual Chain-of-Thought法)を提案する。
実験の結果, RIV-CoTの解答精度は3.1%向上し, バニラCoTの解答精度は4.6%向上した。
論文 参考訳(メタデータ) (2025-01-08T18:31:16Z) - MAmmoTH-VL: Eliciting Multimodal Reasoning with Instruction Tuning at Scale [66.73529246309033]
MLLM(Multimodal large language model)は、多モーダルタスクにおいて大きな可能性を秘めている。
既存の命令チューニングデータセットは、中間的合理性のないフレーズレベルの答えのみを提供する。
そこで本研究では,大規模マルチモーダル・インストラクション・チューニング・データセットを構築するためのスケーラブルで費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2024-12-06T18:14:24Z) - VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning [14.869611817084015]
視覚深層学習(DRL)課題を解決するためのデータ駆動型フレームワークであるVRL3を提案する。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセットを利用してタスクに依存しない視覚表現を学習し、ステージ2ではオフラインRLデータを使用し、ステージ3ではエージェントをオンラインRLで微調整する。
一連の手操作タスクにおいて、VRL3は平均して780%のサンプル効率を達成する。
論文 参考訳(メタデータ) (2022-02-17T09:51:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。