論文の概要: JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
- arxiv url: http://arxiv.org/abs/2503.16365v1
- Date: Thu, 20 Mar 2025 17:21:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:35:36.552097
- Title: JARVIS-VLA: Post-Training Large-Scale Vision Language Models to Play Visual Games with Keyboards and Mouse
- Title(参考訳): JARVIS-VLA: キーボードとマウスでビジュアルゲームをプレイする大規模ビジョン言語モデル
- Authors: Muyao Li, Zihao Wang, Kaichen He, Xiaojian Ma, Yitao Liang,
- Abstract要約: 本稿では,視覚的言語モデル(VLM)を視覚的および言語的指導によって自己指導的に洗練する,視覚言語後訓練のActを紹介する。
この強化により、オープンワールド環境における世界の知識、視覚的認識、空間的接地におけるモデルの能力が向上する。
Minecraftの最初のVLAモデルは、1万以上の異なる原子タスクで人間の指示に従うことができる。
- 参考スコア(独自算出の注目度): 19.20907444216967
- License:
- Abstract: Recently, action-based decision-making in open-world environments has gained significant attention. Visual Language Action (VLA) models, pretrained on large-scale web datasets, have shown promise in decision-making tasks. However, previous work has primarily focused on action post-training, often neglecting enhancements to the foundational model itself. In response, we introduce a novel approach, Act from Visual Language Post-Training, which refines Visual Language Models (VLMs) through visual and linguistic guidance in a self-supervised manner. This enhancement improves the models' capabilities in world knowledge, visual recognition, and spatial grounding in open-world environments. Following the above post-training paradigms, we obtain the first VLA models in Minecraft that can follow human instructions on over 1k different atomic tasks, including crafting, smelting, cooking, mining, and killing. Our experiments demonstrate that post-training on non-trajectory tasks leads to a significant 40% improvement over the best agent baseline on a diverse set of atomic tasks. Furthermore, we demonstrate that our approach surpasses traditional imitation learning-based policies in Minecraft, achieving state-of-the-art performance. We have open-sourced the code, models, and datasets to foster further research. The project page can be found in https://craftjarvis.github.io/JarvisVLA.
- Abstract(参考訳): 近年,オープンワールド環境における行動に基づく意思決定が注目されている。
大規模なWebデータセットで事前トレーニングされたビジュアル言語アクション(VLA)モデルは、意思決定タスクにおいて有望であることを示している。
しかしながら、以前の研究は主に行動後トレーニングに焦点を合わせており、基礎モデル自体の強化を無視することが多い。
そこで我々は,視覚的・言語的指導を通じて視覚言語モデル(VLM)を自己指導的に洗練する,新たなアプローチであるAct from Visual Language Post-Trainingを紹介した。
この強化により、オープンワールド環境における世界の知識、視覚的認識、空間的接地におけるモデルの能力が向上する。
上記の訓練後のパラダイムに従って、マインクラフトで最初のVLAモデルを取得し、人工物、製錬、調理、採掘、殺傷などの1万以上の異なる原子タスクで人間の指示に従うことができる。
実験により,非軌道タスクのポストトレーニングが,多様な原子タスクに対する最高のエージェントベースラインに対して,40%の大幅な改善をもたらすことが示された。
さらに,本手法がMinecraftの従来の模倣学習ベースのポリシーを超越し,最先端のパフォーマンスを実現することを実証した。
我々は、さらなる研究を促進するために、コード、モデル、データセットをオープンソース化しました。
プロジェクトのページはhttps://craftjarvis.github.io/JarvisVLA.orgにある。
関連論文リスト
- Learning to Ground VLMs without Forgetting [54.033346088090674]
我々は、既存の画像や言語理解スキルを忘れずに、事前訓練されたビジュアル言語モデルに視覚的接地能力を持たせるフレームワークであるLynXを紹介する。
モデルを効果的に訓練するために、私たちはSCouTと呼ばれる高品質な合成データセットを生成します。
我々はLynXを複数のオブジェクト検出および視覚的グラウンド化データセット上で評価し、オブジェクト検出、ゼロショットローカライゼーション、グラウンドド推論において強い性能を示す。
論文 参考訳(メタデータ) (2024-10-14T13:35:47Z) - Run-time Observation Interventions Make Vision-Language-Action Models More Visually Robust [9.647148940880381]
視覚言語アクション(VLA)モデルは、大規模なインターネットデータとロボットのデモンストレーションに基づいて訓練され、汎用的なロボットポリシーとして機能する可能性がある。
本稿では,入力画像の領域を動的に識別するリアルタイム介入方式である bring Your Own VLA (BYOVLA) を紹介する。
我々は,BYOVLAが最先端のVLAモデルに対して,邪魔な対象や背景が存在する場合に,その名目上の性能をほぼ維持できることを示す。
論文 参考訳(メタデータ) (2024-10-02T19:29:24Z) - ReVLA: Reverting Visual Domain Limitation of Robotic Foundation Models [55.07988373824348]
既存の3つのロボット基礎モデルの視覚的一般化能力について検討する。
本研究は,既存のモデルがドメイン外シナリオに対する堅牢性を示していないことを示す。
モデルマージに基づく段階的なバックボーンリバーサルアプローチを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:47:59Z) - LanGWM: Language Grounded World Model [24.86620763902546]
我々は,世界モデル学習を強化するために,言語による視覚的特徴を学習することに注力する。
提案手法は,人間とロボットの相互作用モデルを改善する可能性を秘めている。
論文 参考訳(メタデータ) (2023-11-29T12:41:55Z) - Learning without Forgetting for Vision-Language Models [86.53237963364754]
CIL(Class-Incremental Learning)あるいは継続的学習(Continuous Learning)は、現実世界において望ましい能力である。
VLM(Vision-Language Models)の最近の進歩は、一般化可能な表現を学習する上で有望な能力を示している。
本稿では,VLM を忘れずに学習できる ProjectiOn Fusion (PROOF) を提案する。
論文 参考訳(メタデータ) (2023-05-30T17:59:32Z) - VisionLLM: Large Language Model is also an Open-Ended Decoder for
Vision-Centric Tasks [81.32968995346775]
VisionLLMは視覚中心のタスクのためのフレームワークで、柔軟に定義され、言語命令を使って管理できる。
検出固有モデルと同等の精度で,COCO上で60%以上のmAPを達成できる。
論文 参考訳(メタデータ) (2023-05-18T17:59:42Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Behind the Scene: Revealing the Secrets of Pre-trained
Vision-and-Language Models [65.19308052012858]
最近のTransformerベースの大規模事前学習モデルは、視覚言語(V+L)研究に革命をもたらした。
VALUEは,マルチモーダル事前学習における内部動作の解明を目的とした,精密に設計された探索タスクのセットである。
主要な観察:事前訓練されたモデルは、推論中の画像よりもテキストに出席する傾向を示す。
論文 参考訳(メタデータ) (2020-05-15T01:06:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。