論文の概要: Gym-V: A Unified Vision Environment System for Agentic Vision Research
- arxiv url: http://arxiv.org/abs/2603.15432v1
- Date: Mon, 16 Mar 2026 15:37:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.547431
- Title: Gym-V: A Unified Vision Environment System for Agentic Vision Research
- Title(参考訳): Gym-V:エージェントビジョン研究のための統合ビジョン環境システム
- Authors: Fanqing Meng Lingxiao Du Jiawei Gu Jiaqi Liao Linjie Li Zijian Wu Xiangyan Liu Ziqi Zhao Mengkang Hu Yue Zhang Zichen Liu Jiaheng Zhang Michael Qizhe Shieh,
- Abstract要約: Gym-Vは、手続き的に生成された10ドメインにわたる179の視覚環境の統一プラットフォームであり、制御が難しい。
我々は,RLアルゴリズムの選択よりも,観測足場がトレーニングの成功に決定的であることを見出した。
クロスドメイン転送実験は、多様なタスクのトレーニングが広範囲に一般化され、狭いトレーニングが負の転送を引き起こすことを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As agentic systems increasingly rely on reinforcement learning from verifiable rewards, standardized ``gym'' infrastructure has become essential for rapid iteration, reproducibility, and fair comparison. Vision agents lack such infrastructure, limiting systematic study of what drives their learning and where current models fall short. We introduce \textbf{Gym-V}, a unified platform of 179 procedurally generated visual environments across 10 domains with controllable difficulty, enabling controlled experiments that were previously infeasible across fragmented toolkits. Using it, we find that observation scaffolding is more decisive for training success than the choice of RL algorithm, with captions and game rules determining whether learning succeeds at all. Cross-domain transfer experiments further show that training on diverse task categories generalizes broadly while narrow training can cause negative transfer, with multi-turn interaction amplifying all of these effects. Gym-V is released as a convenient foundation for training environments and evaluation toolkits, aiming to accelerate future research on agentic VLMs.
- Abstract(参考訳): エージェントシステムは、検証可能な報酬からの強化学習にますます依存しているため、迅速な反復、再現性、公正な比較のために標準化された 'gym'' インフラストラクチャが不可欠になっている。
ビジョンエージェントにはそのようなインフラストラクチャが欠如しており、学習の原動力となるものや、現在のモデルが不足している部分に関する体系的な研究が制限されている。
本稿では,10領域にわたるプロシージャ的に生成した179個の視覚環境を統一したプラットフォームである‘textbf{Gym-V} を導入する。
これを用いることで、学習が成功するかどうかを判断するキャプションやゲームルールを伴って、RLアルゴリズムの選択よりも、観察足場がトレーニング成功にとって決定的であることが分かる。
クロスドメイン転送実験は、様々なタスクカテゴリのトレーニングが広範囲に一般化され、狭義のトレーニングは、これらすべての効果を増幅するマルチターン相互作用によって負の転送を引き起こす可能性があることを示す。
Gym-Vは、エージェントVLMの研究を加速することを目的として、トレーニング環境と評価ツールキットのための便利な基盤としてリリースされた。
関連論文リスト
- CLIP-Guided Adaptable Self-Supervised Learning for Human-Centric Visual Tasks [76.00315860962885]
CLASP (CLIP-guided Adaptable Self-su Pervised Learning) は、人中心視覚タスクにおける教師なし事前学習のための新しいフレームワークである。
CLASPは強力な視覚言語モデルCLIPを利用して、低レベル(体の部分など)と高レベル(属性など)のセマンティックな擬似ラベルを生成する。
MoEはタスク固有のプロンプトに基づいて機能抽出を動的に適応し、潜在的な機能競合を緩和し、転送可能性を高める。
論文 参考訳(メタデータ) (2026-01-19T15:19:28Z) - From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - VisualToolAgent (VisTA): A Reinforcement Learning Framework for Visual Tool Selection [47.259066449806866]
VisTAは新しい強化学習フレームワークで、視覚エージェントが経験的パフォーマンスに基づいた多様なライブラリのツールを動的に探索し、選択し、組み合わせることを可能にする。
トレーニング不要のベースラインよりも,VisTAが大幅なパフォーマンス向上を実現していることを示す。
これらの結果は、VisTAが一般化を強化し、多様なツールを適応的に活用し、柔軟な経験駆動型視覚推論システムを実現する能力を強調している。
論文 参考訳(メタデータ) (2025-05-26T17:59:17Z) - Sliding Puzzles Gym: A Scalable Benchmark for State Representation in Visual Reinforcement Learning [3.8309622155866583]
Sliding Puzzles Gym (SPGym) は、従来の8タイルパズルを任意に大きなデータセットから描画された画像で視覚的強化学習タスクに変換する新しいベンチマークである。
SPGymの重要な革新は、調整可能なグリッドサイズとイメージプールによって表現学習の複雑さを正確に制御できることである。
論文 参考訳(メタデータ) (2024-10-17T21:23:03Z) - Battle of the Backbones: A Large-Scale Comparison of Pretrained Models
across Computer Vision Tasks [139.3768582233067]
Battle of the Backbones (BoB)は、ニューラルネットワークベースのコンピュータビジョンシステムのためのベンチマークツールである。
視覚変換器(ViT)と自己教師型学習(SSL)がますます人気になっている。
同じアーキテクチャと同じようなサイズの事前トレーニングデータセット上でのアップルとアプリケーションの比較では、SSLバックボーンは極めて競争力があることが分かりました。
論文 参考訳(メタデータ) (2023-10-30T18:23:58Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - The Lottery Tickets Hypothesis for Supervised and Self-supervised
Pre-training in Computer Vision Models [115.49214555402567]
事前訓練された重量は、しばしば分類、検出、セグメンテーションを含む幅広い下流タスクを増加させる。
最近の研究は、巨大モデル能力による事前学習の利点を示唆している。
本稿では,抽選券仮説(LTH)のレンズを用いて,教師付きおよび自己指導型事前学習モデルについて検討する。
論文 参考訳(メタデータ) (2020-12-12T21:53:55Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。