論文の概要: WoMAP: World Models For Embodied Open-Vocabulary Object Localization
- arxiv url: http://arxiv.org/abs/2506.01600v1
- Date: Mon, 02 Jun 2025 12:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.379259
- Title: WoMAP: World Models For Embodied Open-Vocabulary Object Localization
- Title(参考訳): WoMAP:オープン語彙オブジェクトローカライゼーションのための世界モデル
- Authors: Tenny Yin, Zhiting Mei, Tao Sun, Lihan Zha, Emily Zhou, Jeremy Bao, Miyu Yamane, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: WoMAP (World Models for Active Perception) はオープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピである。
我々は,WoMAPがTidyBot上で強力な一般化とsim-to-real転送を実現することを示す。
- 参考スコア(独自算出の注目度): 8.947213246332764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-instructed active object localization is a critical challenge for robots, requiring efficient exploration of partially observable environments. However, state-of-the-art approaches either struggle to generalize beyond demonstration datasets (e.g., imitation learning methods) or fail to generate physically grounded actions (e.g., VLMs). To address these limitations, we introduce WoMAP (World Models for Active Perception): a recipe for training open-vocabulary object localization policies that: (i) uses a Gaussian Splatting-based real-to-sim-to-real pipeline for scalable data generation without the need for expert demonstrations, (ii) distills dense rewards signals from open-vocabulary object detectors, and (iii) leverages a latent world model for dynamics and rewards prediction to ground high-level action proposals at inference time. Rigorous simulation and hardware experiments demonstrate WoMAP's superior performance in a broad range of zero-shot object localization tasks, with more than 9x and 2x higher success rates compared to VLM and diffusion policy baselines, respectively. Further, we show that WoMAP achieves strong generalization and sim-to-real transfer on a TidyBot.
- Abstract(参考訳): 言語で指示されたアクティブオブジェクトのローカライゼーションはロボットにとって重要な課題であり、部分的に観察可能な環境を効率的に探索する必要がある。
しかし、最先端のアプローチは、デモデータセット(例:模倣学習方法)以上の一般化に苦しむか、あるいは物理的に基盤化されたアクション(例:VLM)を生成できないかのどちらかである。
これらの制限に対処するため、WoMAP (World Models for Active Perception): オープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピを紹介する。
i) 専門家によるデモンストレーションを必要とせずに、スケーラブルなデータ生成にガウスのSplattingベースのリアルタイム・シミュレート・トゥ・リアルパイプラインを使用する。
二 開語彙物体検出器からの高密度報酬信号を蒸留し、
第三に、推論時に高レベルなアクション提案を基礎として、動的および報酬の予測に潜伏した世界モデルを活用する。
厳密なシミュレーションとハードウェア実験により、WoMAPは広範囲のゼロショットオブジェクトローカライゼーションタスクにおいて優れた性能を示し、それぞれVLMと拡散ポリシーベースラインと比較して9倍と2倍高い成功率を示した。
さらに,WoMAPはTidyBot上での強力な一般化とシミュレートを実現することを示す。
関連論文リスト
- Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T06:35:18Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。