論文の概要: TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL
- arxiv url: http://arxiv.org/abs/2606.01599v1
- Date: Mon, 01 Jun 2026 02:52:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.883183
- Title: TRON: Targeted Rule-Verifiable Online Environments for Visual Reasoning RL
- Title(参考訳): TRON:ビジュアル推論RLのためのルール検証可能なオンライン環境
- Authors: Tianze Yang, Yucheng Shi, Ruitong Sun, Jingyuan Huang, Ninghao Liu, Jin Sun,
- Abstract要約: 我々はTRON(Targeted, Rule-verible Online eNvironments)というオンライン環境基盤を紹介した。
制御可能なジェネレータ検証プログラムにより、オンデマンドでトレーニングロールアウトを生成する。
単一の実行では、現在のカリキュラムに必要な難易度で、新しいインスタンスの無制限ストリームを描画することができる。
- 参考スコア(独自算出の注目度): 30.5268054241687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning (RL) for visual reasoning needs scalable, verifiable, and controllable training signals. Existing visual RL post-training trains on static curated datasets, with fixed image-question-answer samples bounded by their collection budget. In this work, we introduce TRON (Targeted, Rule-verifiable Online eNvironments), an online environment substrate: a training rollout is generated on demand by a controllable generator-verifier program that samples a fresh latent visual state, renders an image, asks a question, and exactly verifies the answer. A single run can therefore draw an unbounded stream of fresh instances at the difficulty level required by the current curriculum. The current TRON suite contains 520 environments organized into five ability buckets (spatial, mathematical, diagram, pattern/logic, and counting); the same substrate supports both a single full model trained on all buckets and per-bucket ability-specialist models, with no additional data collection. We also introduce a substrate analysis covering generation reliability, instance and level diversity, cross-environment near-duplicates, and base-model pass rate by difficulty level. RL post-training with METHOD consistently improves performance on ten external multimodal reasoning benchmarks across Qwen3-VL-4B, Qwen2.5-VL-7B, and MiMo-VL-7B-SFT.
- Abstract(参考訳): 視覚推論のための強化学習(RL)には、スケーラブルで、検証可能で、制御可能な訓練信号が必要である。
既存のビジュアルRLポストトレーニングトレインは、静的なキュレートされたデータセット上で、画像検索と回答の固定されたサンプルを収集予算でバウンドする。
本研究では、オンライン環境基板であるTRON(Targeted, Rule-verible Online eNvironments)を導入し、新しい潜伏した視覚状態をサンプリングし、画像をレンダリングし、質問し、答えを正確に検証する制御可能なジェネレータ検証プログラムによって、オンデマンドでトレーニングロールアウトを生成する。
したがって、単一の実行は、現在のカリキュラムに必要な難易度で、新しいインスタンスの無制限ストリームを引き出すことができる。
現在のTRONスイートには、5つの機能バケット(空間、数学的、ダイアグラム、パターン/論理、カウント)で構成された520の環境が含まれている。
また, 生成信頼性, インスタンスおよびレベル多様性, クロス環境近距離倍率, ベースモデルパス率を, 難易度別に網羅した基板解析も導入した。
RLポストトレーニングは、Qwen3-VL-4B、Qwen2.5-VL-7B、MiMo-VL-7B-SFTの10の外部マルチモーダル推論ベンチマークの性能を継続的に改善する。
関連論文リスト
- Efficient Multi-turn RL for GUI Agents via Decoupled Training and Adaptive Data Curation [65.3648667980258]
視覚言語モデル(VLM)に基づくGUIエージェントは複雑なタスクの自動化を約束するが、強化学習(RL)の適用において大きな課題に直面している。
異種モジュールを高度に非結合的に協調するGUIエージェントのための非結合エージェントRLトレーニングフレームワークであるDARTを提案する。
OSWorldのベンチマークでは、DART-GUI-7Bは42.13%のタスク成功率、14.61%の絶対ゲイン、オープンソースSOTAよりも7.34%高い。
論文 参考訳(メタデータ) (2025-09-28T13:19:20Z) - High-Resolution Visual Reasoning via Multi-Turn Grounding-Based Reinforcement Learning [43.8114307203968]
最先端の大規模マルチモーダルモデル (LMM) は高解像度画像処理において課題に直面している。
本稿では,多ターン接地型政策最適化(MGPO)を提案する。
MGPOは、LMMが自動的にサブイメージをトリミングすることで、鍵となる視覚領域に反復的に焦点を合わせることを可能にする。
論文 参考訳(メタデータ) (2025-07-08T12:05:05Z) - Efficient Controllable Diffusion via Optimal Classifier Guidance [16.748525985158278]
制御可能な拡散モデルの生成は、与えられた目的関数を最適化するサンプルを生成するためにモデルを操ることを目的としている。
SLCD -- Supervised Learning based Controllable Diffusionを提案する。
論文 参考訳(メタデータ) (2025-05-27T18:46:21Z) - One RL to See Them All: Visual Triple Unified Reinforcement Learning [92.90120580989839]
V-Triuneは、視覚的推論と知覚タスクを1つのトレーニングパイプライン内で実現するビジュアルトリプル統一強化学習システムである。
V-Triuneは3つの補完的なコンポーネントで構成されている: Sample-Level Datashelf (多様なタスク入力を統一する)、Verifier-Level Reward (特殊検証を通じてカスタム報酬を提供する)。
本稿では,V-Triuneが処理する知覚タスクに対して適応的,進行的,明確なフィードバックを提供する,新しい動的IoU報酬を提案する。
論文 参考訳(メタデータ) (2025-05-23T17:41:14Z) - Exploring the Effect of Reinforcement Learning on Video Understanding: Insights from SEED-Bench-R1 [53.894789613838654]
ビデオ理解におけるMLLMのポストトレーニング手法を評価するためのベンチマークであるSEED-Bench-R1を紹介する。
複雑な現実世界のビデオや、複数の質問の形式での複雑な日常的な計画タスクも含んでいる。
Qwen2-VL-Instruct-7Bをベースモデルとして、RLと教師付き微調整(SFT)を比較した。
我々の詳細な分析では、RLは視覚知覚を増強するが、しばしばコヒーレント推論連鎖を減少させる。
論文 参考訳(メタデータ) (2025-03-31T17:55:23Z) - SANDWICH: Towards an Offline, Differentiable, Fully-Trainable Wireless Neural Ray-Tracing Surrogate [28.381780436787658]
ワイヤレス・レイトレーシングは3Dワイヤレス・チャネル・モデリングの鍵となるツールとして登場しつつある。
現在のアプローチでは、5G(B5G)ネットワークシグナリングを超えて正確にモデルを作成するのに苦労している。
逐次決定問題として線軌跡生成を再定義する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-13T16:53:14Z) - Adding Conditional Control to Diffusion Models with Reinforcement Learning [68.06591097066811]
拡散モデルは、生成されたサンプルの特性を正確に制御できる強力な生成モデルである。
大規模なデータセットでトレーニングされたこれらの拡散モデルは成功したが、下流の微調整プロセスに新たな制御を導入する必要があることが多い。
本研究では、オフラインデータセットを用いた強化学習(RL)に基づく新しい制御手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T22:00:26Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。