論文の概要: One RL to See Them All: Visual Triple Unified Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2505.18129v1
- Date: Fri, 23 May 2025 17:41:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.254554
- Title: One RL to See Them All: Visual Triple Unified Reinforcement Learning
- Title(参考訳): 1つのRLがすべてを見る:ビジュアルトリプル統一強化学習
- Authors: Yan Ma, Linge Du, Xuyang Shen, Shaoxiang Chen, Pengfei Li, Qibing Ren, Lizhuang Ma, Yuchao Dai, Pengfei Liu, Junjie Yan,
- Abstract要約: V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
- 参考スコア(独自算出の注目度): 92.90120580989839
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning (RL) has significantly advanced the reasoning capabilities of vision-language models (VLMs). However, the use of RL beyond reasoning tasks remains largely unexplored, especially for perceptionintensive tasks like object detection and grounding. We propose V-Triune, a Visual Triple Unified Reinforcement Learning system that enables VLMs to jointly learn visual reasoning and perception tasks within a single training pipeline. V-Triune comprises triple complementary components: Sample-Level Data Formatting (to unify diverse task inputs), Verifier-Level Reward Computation (to deliver custom rewards via specialized verifiers) , and Source-Level Metric Monitoring (to diagnose problems at the data-source level). We further introduce a novel Dynamic IoU reward, which provides adaptive, progressive, and definite feedback for perception tasks handled by V-Triune. Our approach is instantiated within off-the-shelf RL training framework using open-source 7B and 32B backbone models. The resulting model, dubbed Orsta (One RL to See Them All), demonstrates consistent improvements across both reasoning and perception tasks. This broad capability is significantly shaped by its training on a diverse dataset, constructed around four representative visual reasoning tasks (Math, Puzzle, Chart, and Science) and four visual perception tasks (Grounding, Detection, Counting, and OCR). Subsequently, Orsta achieves substantial gains on MEGA-Bench Core, with improvements ranging from +2.1 to an impressive +14.1 across its various 7B and 32B model variants, with performance benefits extending to a wide range of downstream tasks. These results highlight the effectiveness and scalability of our unified RL approach for VLMs. The V-Triune system, along with the Orsta models, is publicly available at https://github.com/MiniMax-AI.
- Abstract(参考訳): 強化学習(RL)は視覚言語モデル(VLM)の推論能力を大幅に向上させた。
しかしながら、推論タスク以外のRLの使用は、特に物体検出や接地のような知覚集約的なタスクに対して、ほとんど探索されていないままである。
本稿では,視覚三重統一強化学習システムであるV-Triuneを提案する。
V-Triuneは3つの補完的なコンポーネントで構成されている。サンプルレベルデータフォーマット(多様なタスク入力を統一する)、検証レベルリワード計算(特別なバリデーションを通じてカスタム報酬を提供する)、ソースレベルメトリックモニタリング(データソースレベルでの問題を診断する)。
さらに、V-Triuneが処理する知覚タスクに対して適応的、進行的、明確なフィードバックを提供する新しい動的IoU報酬を導入する。
当社のアプローチは,オープンソース7Bと32Bのバックボーンモデルを用いて,市販のRLトレーニングフレームワーク内でインスタンス化されている。
結果として得られたモデルはOrsta(One RL to See Them All)と呼ばれ、推論タスクと知覚タスクの両方で一貫した改善を示している。
この幅広い能力は、4つの視覚的推論タスク(Math, Puzzle, Chart, and Science)と4つの視覚的知覚タスク(Grounding, Detection, Counting, OCR)を中心に構築された多様なデータセットのトレーニングによって大きく形作られています。
その後、OrstaはMEGA-Bench Coreで大幅に向上し、様々な7Bおよび32Bモデルで+2.1から+14.1に改善され、幅広いダウンストリームタスクにパフォーマンス上の利点が拡張された。
これらの結果は,VLMの統一RL手法の有効性と拡張性を強調した。
V-TriuneシステムはOrstaモデルとともにhttps://github.com/MiniMax-AIで公開されている。
関連論文リスト
- VLM-R1: A Stable and Generalizable R1-style Large Vision-Language Model [29.524164786422368]
最近、DeepSeek R1は、強化学習が大規模言語モデル(LLM)の推論能力を大幅に改善できることを示した。
視覚言語モデル(VLM)へのR1型強化学習の拡張について検討する。
VLM-R1 は,汎用視覚言語タスクにおける VLM の性能向上のために RL を利用した専用フレームワークである。
論文 参考訳(メタデータ) (2025-04-10T10:05:15Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Less is More: High-value Data Selection for Visual Instruction Tuning [127.38740043393527]
本稿では,視覚的命令データの冗長性を排除し,トレーニングコストを削減するために,高価値なデータ選択手法TIVEを提案する。
約15%のデータしか使用していない我々のアプローチは、8つのベンチマークで全データ微調整モデルに匹敵する平均性能を実現することができる。
論文 参考訳(メタデータ) (2024-03-14T16:47:25Z) - X-Learner: Learning Cross Sources and Tasks for Universal Visual
Representation [71.51719469058666]
本稿では,X-Learnerという表現学習フレームワークを提案する。
X-Learnerは、様々なソースによって管理される複数の視覚タスクの普遍的な特徴を学習する。
X-Learnerは、追加のアノテーションやモダリティ、計算コストを使わずに、様々なタスクで強力なパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-16T17:23:26Z) - VRL3: A Data-Driven Framework for Visual Deep Reinforcement Learning [14.869611817084015]
視覚深層学習(DRL)課題を解決するためのデータ駆動型フレームワークであるVRL3を提案する。
我々のフレームワークには3つのステージがある: ステージ1では非RLデータセットを利用してタスクに依存しない視覚表現を学習し、ステージ2ではオフラインRLデータを使用し、ステージ3ではエージェントをオンラインRLで微調整する。
一連の手操作タスクにおいて、VRL3は平均して780%のサンプル効率を達成する。
論文 参考訳(メタデータ) (2022-02-17T09:51:32Z) - The Devil is in the Task: Exploiting Reciprocal Appearance-Localization
Features for Monocular 3D Object Detection [62.1185839286255]
低コストのモノクル3D物体検出は、自律運転において基本的な役割を果たす。
DFR-Netという動的特徴反射ネットワークを導入する。
我々は、KITTIテストセットの全ての単分子3D物体検出器の中で、第1位にランク付けする。
論文 参考訳(メタデータ) (2021-12-28T07:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。