論文の概要: WoMAP: World Models For Embodied Open-Vocabulary Object Localization
- arxiv url: http://arxiv.org/abs/2506.01600v1
- Date: Mon, 02 Jun 2025 12:35:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.379259
- Title: WoMAP: World Models For Embodied Open-Vocabulary Object Localization
- Title(参考訳): WoMAP:オープン語彙オブジェクトローカライゼーションのための世界モデル
- Authors: Tenny Yin, Zhiting Mei, Tao Sun, Lihan Zha, Emily Zhou, Jeremy Bao, Miyu Yamane, Ola Shorinwa, Anirudha Majumdar,
- Abstract要約: WoMAP (World Models for Active Perception) はオープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピである。
我々は,WoMAPがTidyBot上で強力な一般化とsim-to-real転送を実現することを示す。
- 参考スコア(独自算出の注目度): 8.947213246332764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-instructed active object localization is a critical challenge for robots, requiring efficient exploration of partially observable environments. However, state-of-the-art approaches either struggle to generalize beyond demonstration datasets (e.g., imitation learning methods) or fail to generate physically grounded actions (e.g., VLMs). To address these limitations, we introduce WoMAP (World Models for Active Perception): a recipe for training open-vocabulary object localization policies that: (i) uses a Gaussian Splatting-based real-to-sim-to-real pipeline for scalable data generation without the need for expert demonstrations, (ii) distills dense rewards signals from open-vocabulary object detectors, and (iii) leverages a latent world model for dynamics and rewards prediction to ground high-level action proposals at inference time. Rigorous simulation and hardware experiments demonstrate WoMAP's superior performance in a broad range of zero-shot object localization tasks, with more than 9x and 2x higher success rates compared to VLM and diffusion policy baselines, respectively. Further, we show that WoMAP achieves strong generalization and sim-to-real transfer on a TidyBot.
- Abstract(参考訳): 言語で指示されたアクティブオブジェクトのローカライゼーションはロボットにとって重要な課題であり、部分的に観察可能な環境を効率的に探索する必要がある。
しかし、最先端のアプローチは、デモデータセット(例:模倣学習方法)以上の一般化に苦しむか、あるいは物理的に基盤化されたアクション(例:VLM)を生成できないかのどちらかである。
これらの制限に対処するため、WoMAP (World Models for Active Perception): オープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピを紹介する。
i) 専門家によるデモンストレーションを必要とせずに、スケーラブルなデータ生成にガウスのSplattingベースのリアルタイム・シミュレート・トゥ・リアルパイプラインを使用する。
二 開語彙物体検出器からの高密度報酬信号を蒸留し、
第三に、推論時に高レベルなアクション提案を基礎として、動的および報酬の予測に潜伏した世界モデルを活用する。
厳密なシミュレーションとハードウェア実験により、WoMAPは広範囲のゼロショットオブジェクトローカライゼーションタスクにおいて優れた性能を示し、それぞれVLMと拡散ポリシーベースラインと比較して9倍と2倍高い成功率を示した。
さらに,WoMAPはTidyBot上での強力な一般化とシミュレートを実現することを示す。
関連論文リスト
- TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation [70.23578202012048]
Vision-Language Navigation (VLN) は、アーキテクチャ上のミスマッチのため、大きなビジョン-Language Models (VLM) に固有の課題を提示している。
我々は,VLMのバックボーンにトポロジ構造を明示的に注入するエンドツーエンドフレームワークであるTagaVLM(トポロジ・アウェア・グローバルアクション推論)を提案する。
トポロジ的ノード情報を強化するため、Interleaved Navigation Promptはノードレベルのビジュアルテキストアライメントを強化する。
埋め込みトポロジグラフでは、このモデルはグローバルな行動推論が可能であり、堅牢な経路補正を可能にする。
論文 参考訳(メタデータ) (2026-03-03T13:28:07Z) - Universal Pose Pretraining for Generalizable Vision-Language-Action Policies [83.39008378156647]
既存のVision-Language-Action(VLA)モデルは、しばしば機能崩壊と訓練効率の低下に悩まされる。
本稿では,VLAトレーニングを3次元空間前駆体抽出のための事前学習フェーズに分離する,分離されたパラダイムであるPose-VLAを提案する。
我々のフレームワークは2段階の事前学習パイプラインに従い、ポーズと動きのアライメントによる基本的な空間接地を確立する。
論文 参考訳(メタデータ) (2026-02-23T11:00:08Z) - R2RGEN: Real-to-Real 3D Data Generation for Spatially Generalized Manipulation [74.41728218960465]
本稿では,実世界のデータを生成するために,ポイントクラウド観測-アクションペアを直接拡張するリアルタイム3Dデータ生成フレームワーク(R2RGen)を提案する。
R2RGenは、広範な実験におけるデータの効率を大幅に向上させ、モバイル操作におけるスケーリングと応用の強い可能性を示す。
論文 参考訳(メタデータ) (2025-10-09T17:55:44Z) - Boosting Zero-Shot VLN via Abstract Obstacle Map-Based Waypoint Prediction with TopoGraph-and-VisitInfo-Aware Prompting [18.325003967982827]
視覚言語ナビゲーション (VLN) は、広範囲に応用されたエージェントの具体化のための重要なタスクとして登場した。
マルチモーダル大言語モデル(MLLM)と簡易かつ効果的なウェイポイント予測器を統合したゼロショットフレームワークを提案する。
R2R-CE と RxR-CE の実験結果から,本手法は最先端のゼロショット性能を実現し,成功率は 41% と 36% であった。
論文 参考訳(メタデータ) (2025-09-24T19:21:39Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - AnyPlace: Learning Generalized Object Placement for Robot Manipulation [37.725807003481904]
合成データに基づく2段階の手法であるAnyPlaceを提案する。
私たちのキーとなる洞察は、ビジョン・ランゲージ・モデルを活用することで、ローカルな配置のために、関連する領域のみに焦点を当てるということです。
トレーニングのために、異なる配置構成でランダムに生成されたオブジェクトの完全な合成データセットを生成する。
実世界の実験では、我々の手法が純粋に訓練されたモデルを直接現実世界に転送する方法が示されている。
論文 参考訳(メタデータ) (2025-02-06T22:04:13Z) - Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。
この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。
本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文 参考訳(メタデータ) (2024-10-16T19:59:31Z) - E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。
既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。
本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文 参考訳(メタデータ) (2024-09-16T06:35:18Z) - Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。
我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。
その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文 参考訳(メタデータ) (2024-08-17T06:24:43Z) - YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。
提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。
YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文 参考訳(メタデータ) (2024-01-30T18:59:38Z) - Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。
オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文 参考訳(メタデータ) (2023-11-02T16:31:49Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - SEAL: Simultaneous Exploration and Localization in Multi-Robot Systems [0.0]
本稿では,新しい同時探索と局所化手法を提案する。
相対的なローカライゼーションのために通信グラフ最適化を行いながら、最大探索に情報融合を用いる。
広範囲なROS-Gazeboシミュレーションにおける探索および位置決め性能のショートエッジ法より優れたSEAL
論文 参考訳(メタデータ) (2023-06-22T01:27:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。