論文の概要: GEM: Generative Supervision Helps Embodied Intelligence
- arxiv url: http://arxiv.org/abs/2605.28548v1
- Date: Wed, 27 May 2026 14:39:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:56.122646
- Title: GEM: Generative Supervision Helps Embodied Intelligence
- Title(参考訳): GEM:ジェネレーティブ・スーパービジョンは身体の知性を助ける
- Authors: Ruowen Zhao, Bangguo Li, Zuyan Liu, Yinan Liang, Junliang Ye, Fangfu Liu, Diankun Wu, Zhengyi Wang, Xumin Yu, Yongming Rao, Han Hu, Jun Zhu,
- Abstract要約: VLM(Embodied Vision-Language Models)は、ロボット工学における優れた性能と一般化を実証している。
標準的なテキスト誘導事前学習パラダイムの高レベルのセマンティックフォーカスと、エンボディ環境での実行に不可欠な低レベルの空間的および物理的知識との間には、大きなギャップが残っている。
我々は、この分割を橋渡しするために設計された、ジェネレーティブ制御されたエンボディード視覚言語モデルであるGEMを紹介する。
- 参考スコア(独自算出の注目度): 60.28190143133428
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied Vision-Language Models (VLMs) have demonstrated impressive performance and generalization in robotics, particularly within Vision-Language-Action frameworks. However, a significant gap remains between the high-level semantic focus of standard text-guided pre-training paradigms and the low-level spatial and physical knowledge critical for execution in embodied environments. In this paper, we introduce GEM, a Generative-supervised Embodied vision-language Model designed to bridge this divide. We propose integrating a depth map generation task directly into the VLM pre-training phase. By training this generative objective jointly with the main model, we observe substantial improvements in embodied intelligence, significantly enhancing both semantic understanding and physical operation capabilities. To support this paradigm, we curate and release GEM-4M, a comprehensive large-scale dataset featuring a mixture of grounding, reasoning, and planning data paired with high-quality depth supervision. Extensive experiments demonstrate that GEM achieves state-of-the-art results across diverse embodied benchmarks. Furthermore, our deployed action model, GEM-VLA, exhibits vastly superior task execution abilities in both simulation environments and real-world evaluations. Code, models, and datasets are available at https://zhaorw02.github.io/GEM/
- Abstract(参考訳): VLM(Embodied Vision-Language Models)は、特にVision-Language-Actionフレームワークにおいて、ロボット工学における顕著なパフォーマンスと一般化を実証している。
しかし、標準的なテキスト誘導事前学習パラダイムの高レベルな意味的焦点と、具体的環境での実行に不可欠な低レベルな空間的および物理的知識との間には、大きなギャップが残っている。
本稿では,この分割を橋渡しするために設計されたジェネレーティブ・アンボダイド・ビジョン言語モデルであるGEMを紹介する。
本稿では,VLM事前学習フェーズに直接深度マップ生成タスクを統合することを提案する。
本研究は,本モデルと協調して生成目標を訓練することにより,具体的知能の大幅な向上を観察し,意味的理解と身体的操作能力の両方を著しく向上させる。
このパラダイムをサポートするため、我々は、高品質な深度監視と組み合わせたグラウンドディング、推論、計画データの混合を含む総合的な大規模データセットであるGEM-4Mをキュレートし、リリースする。
広範囲にわたる実験により、GEMは様々な実施されたベンチマークで最先端の結果が得られることが示された。
さらに,我々の展開した行動モデルであるGEM-VLAは,シミュレーション環境と実世界の評価において,極めて優れたタスク実行能力を示す。
コード、モデル、データセットはhttps://zhaorw02.github.io/GEM/で入手できる。
関連論文リスト
- EPIC-Bench: A Perception-Centric Benchmark for Fine-Grained Embodied Visual Grounding in Vision-Language Models [39.77362541405281]
EPIC-Benchは、大規模視覚言語モデル(VLM)の基盤ベンチマークである。
実環境におけるVLMの視覚知覚能力を体系的に評価する。
論文 参考訳(メタデータ) (2026-05-16T16:38:51Z) - $M^2$-VLA: Boosting Vision-Language Models for Generalizable Manipulation via Layer Mixture and Meta-Skills [25.17452377052361]
現在のVision-Language-Action(VLA)モデルは、主にエンドツーエンドの微調整に依存している。
本稿では,汎用VLMがロボット操作の強力なバックボーンとして機能できることを実証するM2$-VLAを提案する。
これを解決するために、密接な意味的特徴からタスククリティカル情報を選択的に抽出するMixture of Layers(MoL)戦略を導入する。
論文 参考訳(メタデータ) (2026-04-27T08:44:12Z) - Vision-and-Language Navigation for UAVs: Progress, Challenges, and a Research Roadmap [10.048113624715151]
UAV-VLN (Vision-and-Language Navigation for Unmanned Aerial Vehicles) は、人工知能において重要な課題である。
本稿では,その形式的タスク定義から現状まで,その分野を包括的かつ構造化した調査を行う。
論文 参考訳(メタデータ) (2026-04-15T09:20:02Z) - HY-Embodied-0.5: Embodied Foundation Models for Real-World Agents [71.09493646932046]
本稿では,実世界のエンボディエージェントに特化して設計された基礎モデルのファウンデーションモデルであるHY-Embodied-0.5を紹介する。
HY-Embodied-0.5スイートは、エッジ配置用に設計された2Bアクティベートパラメータを持つ効率的なモデルと、複雑な推論をターゲットとした32Bアクティベートパラメータを持つ強力なモデルである。
私たちのMoT-2Bモデルは16ベンチマークで同等の大きさの最先端モデルより優れていますが、32BはGemini 3.0 Proのようなフロンティアモデルに匹敵するパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2026-04-08T17:59:48Z) - Revisiting Multi-Task Visual Representation Learning [52.93947931352643]
本稿では,マルチタスク・ビジュアル事前学習フレームワークであるMTVを紹介する。
我々は、高容量の「エキスパート」モデルを利用して、高密度で構造化された擬似ラベルを大規模に合成する。
以上の結果から,MTV が "Best-of-both-worlds" のパフォーマンスを達成できることが示唆された。
論文 参考訳(メタデータ) (2026-01-20T11:59:19Z) - Hierarchical Language Models for Semantic Navigation and Manipulation in an Aerial-Ground Robotic System [8.88014241557266]
不均一なマルチロボットシステムは、協調的なハイブリッド協調を必要とする複雑なタスクにおいて大きな可能性を示す。
静的またはタスク固有のモデルに依存する既存のメソッドは、様々なタスクや動的環境にまたがる一般化性に欠けることが多い。
本稿では,大規模言語モデル (LLM) と微調整型視覚言語モデル (VLM) を統合した階層型マルチモーダルフレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-05T13:27:41Z) - A Data-Centric Revisit of Pre-Trained Vision Models for Robot Learning [67.72413262980272]
事前訓練された視覚モデル(PVM)は現代のロボティクスの基本であるが、その最適構成は定かではない。
セマンティック・ボトルネックを導入してオブジェクト中心の表現を誘導する手法であるSlotMIMを開発した。
提案手法は,画像認識,シーン理解,ロボット学習評価において,従来の作業よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-03-10T06:18:31Z) - ExGra-Med: Extended Context Graph Alignment for Medical Vision-Language Models [95.47808515575382]
ExGra-Medは、医療AIのビジョン言語統合のための新しいフレームワークである。
画像、命令応答、拡張キャプションを潜在空間にアライメントし、セマンティックグラウンドとクロスモーダルコヒーレンスを前進させる。
プレトレーニングデータの10%しか使用せず、VQA-RADで20.13%向上し、フルデータパフォーマンスに近づいた。
論文 参考訳(メタデータ) (2024-10-03T15:52:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。