論文の概要: VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
- arxiv url: http://arxiv.org/abs/2601.16973v1
- Date: Fri, 23 Jan 2026 18:43:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-26 14:27:27.807478
- Title: VisGym: Diverse, Customizable, Scalable Environments for Multimodal Agents
- Title(参考訳): VisGym: 多様な、カスタマイズ可能な、マルチモーダルエージェントのためのスケーラブルな環境
- Authors: Zirui Wang, Junyi Zhang, Jiaxin Ge, Long Lian, Letian Fu, Lisa Dunlap, Ken Goldberg, XuDong Wang, Ion Stoica, David M. Chan, Sewon Min, Joseph E. Gonzalez,
- Abstract要約: VLM(Modern Vision-Language Models)の評価とトレーニングのための17環境の体育館VisGymを紹介する。
このスイートは、象徴的なパズル、実像理解、ナビゲーション、操作にまたがり、難易度、入力表現、計画的地平線、フィードバックに対する柔軟な制御を提供する。
我々の評価では、全てのフロンティアモデルがインタラクティブな設定で苦労し、簡単な(46.6%)と難しい(26.0%)の両方で成功率の低いことが示されている。
- 参考スコア(独自算出の注目度): 96.01507640637534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Modern Vision-Language Models (VLMs) remain poorly characterized in multi-step visual interactions, particularly in how they integrate perception, memory, and action over long horizons. We introduce VisGym, a gymnasium of 17 environments for evaluating and training VLMs. The suite spans symbolic puzzles, real-image understanding, navigation, and manipulation, and provides flexible controls over difficulty, input representation, planning horizon, and feedback. We also provide multi-step solvers that generate structured demonstrations, enabling supervised finetuning. Our evaluations show that all frontier models struggle in interactive settings, achieving low success rates in both the easy (46.6%) and hard (26.0%) configurations. Our experiments reveal notable limitations: models struggle to effectively leverage long context, performing worse with an unbounded history than with truncated windows. Furthermore, we find that several text-based symbolic tasks become substantially harder once rendered visually. However, explicit goal observations, textual feedback, and exploratory demonstrations in partially observable or unknown-dynamics settings for supervised finetuning yield consistent gains, highlighting concrete failure modes and pathways for improving multi-step visual decision-making. Code, data, and models can be found at: https://visgym.github.io/.
- Abstract(参考訳): 現代の視覚-言語モデル(VLM)は、特に知覚、記憶、行動が長い地平線上でどのように統合されるかにおいて、多段階の視覚的相互作用において、貧弱な特徴を保っている。
VLMの評価とトレーニングのための17環境の体育館であるVisGymを紹介した。
このスイートは、象徴的なパズル、実像理解、ナビゲーション、操作にまたがり、難易度、入力表現、計画的地平線、フィードバックに対する柔軟な制御を提供する。
また、構造化されたデモを生成するマルチステップソルバも提供し、教師付き微調整を可能にした。
我々の評価では、全てのフロンティアモデルがインタラクティブな設定で苦労し、簡単な(46.6%)と難しい(26.0%)の両方で成功率の低いことが示されている。
モデルは長いコンテキストを効果的に活用するのに苦労し、区切られたウィンドウよりも境界のない履歴ではパフォーマンスが悪くなります。
さらに,複数のテキストベースの記号的タスクが視覚的にレンダリングされると,さらに困難になることがわかった。
しかし、明確な目標観測、テキストフィードバック、部分的に観察可能な、あるいは未知の力学設定による探索的デモンストレーションは、教師付き微調整による収差の一貫したゲインを達成し、多段階の視覚的意思決定を改善するための具体的な失敗モードと経路を強調した。
コード、データ、モデルについては、https://visgym.github.io/.com/で確認できる。
関連論文リスト
- Blink: Dynamic Visual Token Resolution for Enhanced Multimodal Understanding [43.63398524449102]
人間は、シーケンシャルな「リンクライク」プロセスにおいて、動的に走査し、正常な領域に焦点を当てることで、複雑なシーンを効率よく知覚する。
我々は,人間に触発されたプロセスを1つのフォワードパス内でエミュレートする動的視覚トークン解決フレームワークであるBlinkを提案する。
Blinkは広義の探索と微妙な焦点のバランスを保ち、視覚知覚を適応的かつ効率的に向上させる。
論文 参考訳(メタデータ) (2025-12-11T11:27:25Z) - Unleashing the Intrinsic Visual Representation Capability of Multimodal Large Language Models [58.91911788912665]
より識別的な視覚表現の学習において,MLLMの学習を容易にする新しい学習フレームワークであるLaVerを提案する。
本手法はMLLMに対して直接視覚的アクティベーションを提供し,視覚的アサインメントが増大し,視覚情報の利用が向上したことを示す。
論文 参考訳(メタデータ) (2025-12-06T04:20:13Z) - ViCrit: A Verifiable Reinforcement Learning Proxy Task for Visual Perception in VLMs [98.27348724529257]
ViCrit (Visual Caption Hallucination Critic) は、VLMを訓練し、人間の手書き画像キャプションの段落に挿入された微妙で合成的な視覚幻覚をローカライズするRLプロキシタスクである。
ViCrit Taskでトレーニングされたモデルは、さまざまなビジョン言語モデルベンチマークで大幅に向上している。
論文 参考訳(メタデータ) (2025-06-11T19:16:54Z) - V-MAGE: A Game Evaluation Framework for Assessing Vision-Centric Capabilities in Multimodal Large Language Models [84.27290155010533]
本稿では,視覚中心型多機能ゲーム評価(V-MAGE)について紹介する。
V-MAGEは、30以上の慎重に構築された評価シナリオからなる5つの異なるビデオゲームを特徴としている。
V-MAGEは、動的かつインタラクティブな設定において、MLLMの視覚的および推論能力を改善するために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-04-08T15:43:01Z) - Seeing is Believing? Enhancing Vision-Language Navigation using Visual Perturbations [41.5875455113941]
先進的なVLNモデルが実際の環境の視覚的内容を理解しているかどうかを検討する。
意外なことに、ノイズの多い視覚入力であっても、単純な分岐展開は、パラドックス的にナビゲーションの有効性を向上する。
分岐量と視覚的品質の両方の影響を探索する多機能マルチブランチアーキテクチャ(MBA)を提案する。
論文 参考訳(メタデータ) (2024-09-09T12:17:38Z) - OLIVE: Object Level In-Context Visual Embeddings [8.168219870640318]
テキスト内ビジュアルオブジェクトベクトルを用いた大規模言語モデルを提案する。
これにより、画像パッチ機能の長い配列を融合する必要がなくなり、トレーニングが大幅にスピードアップする。
実験の結果,提案手法は競合参照対象分類とキャプション性能を実現する。
論文 参考訳(メタデータ) (2024-06-02T21:36:31Z) - CogCoM: A Visual Language Model with Chain-of-Manipulations Reasoning [61.21923643289266]
カオス・オブ・マニピュレーション(Chain of Manipulations)は、視覚言語モデル(Vision-Language Models)が、エビデンスを段階的に解決するメカニズムである。
トレーニング後、モデルは外部ツールを介さずに、本質的な操作(グラウンド、ズームインなど)を積極的に行うことで、様々な視覚的問題を解決することができる。
トレーニングされたモデルである textbfCogCoM は、4つのカテゴリの9つのベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-02-06T18:43:48Z) - Visual Adversarial Imitation Learning using Variational Models [60.69745540036375]
逆関数仕様は、深い強化学習を通しての学習行動にとって大きな障害であり続けている。
望ましい行動の視覚的なデモンストレーションは、エージェントを教えるためのより簡単で自然な方法を示すことが多い。
変動モデルに基づく対向的模倣学習アルゴリズムを開発した。
論文 参考訳(メタデータ) (2021-07-16T00:15:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。