Fugu-MT 論文翻訳(概要): WoMAP: World Models For Embodied Open-Vocabulary Object Localization

論文の概要: WoMAP: World Models For Embodied Open-Vocabulary Object Localization

arxiv url: http://arxiv.org/abs/2506.01600v1
Date: Mon, 02 Jun 2025 12:35:14 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.379259
Title: WoMAP: World Models For Embodied Open-Vocabulary Object Localization
Title（参考訳）: WoMAP:オープン語彙オブジェクトローカライゼーションのための世界モデル
Authors: Tenny Yin, Zhiting Mei, Tao Sun, Lihan Zha, Emily Zhou, Jeremy Bao, Miyu Yamane, Ola Shorinwa, Anirudha Majumdar,
Abstract要約: WoMAP (World Models for Active Perception) はオープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピである。我々は,WoMAPがTidyBot上で強力な一般化とsim-to-real転送を実現することを示す。
参考スコア（独自算出の注目度）: 8.947213246332764
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Language-instructed active object localization is a critical challenge for robots, requiring efficient exploration of partially observable environments. However, state-of-the-art approaches either struggle to generalize beyond demonstration datasets (e.g., imitation learning methods) or fail to generate physically grounded actions (e.g., VLMs). To address these limitations, we introduce WoMAP (World Models for Active Perception): a recipe for training open-vocabulary object localization policies that: (i) uses a Gaussian Splatting-based real-to-sim-to-real pipeline for scalable data generation without the need for expert demonstrations, (ii) distills dense rewards signals from open-vocabulary object detectors, and (iii) leverages a latent world model for dynamics and rewards prediction to ground high-level action proposals at inference time. Rigorous simulation and hardware experiments demonstrate WoMAP's superior performance in a broad range of zero-shot object localization tasks, with more than 9x and 2x higher success rates compared to VLM and diffusion policy baselines, respectively. Further, we show that WoMAP achieves strong generalization and sim-to-real transfer on a TidyBot.
Abstract（参考訳）: 言語で指示されたアクティブオブジェクトのローカライゼーションはロボットにとって重要な課題であり、部分的に観察可能な環境を効率的に探索する必要がある。しかし、最先端のアプローチは、デモデータセット(例:模倣学習方法)以上の一般化に苦しむか、あるいは物理的に基盤化されたアクション(例:VLM)を生成できないかのどちらかである。これらの制限に対処するため、WoMAP (World Models for Active Perception): オープン語彙オブジェクトローカライゼーションポリシーをトレーニングするためのレシピを紹介する。 i) 専門家によるデモンストレーションを必要とせずに、スケーラブルなデータ生成にガウスのSplattingベースのリアルタイム・シミュレート・トゥ・リアルパイプラインを使用する。二開語彙物体検出器からの高密度報酬信号を蒸留し、第三に、推論時に高レベルなアクション提案を基礎として、動的および報酬の予測に潜伏した世界モデルを活用する。厳密なシミュレーションとハードウェア実験により、WoMAPは広範囲のゼロショットオブジェクトローカライゼーションタスクにおいて優れた性能を示し、それぞれVLMと拡散ポリシーベースラインと比較して9倍と2倍高い成功率を示した。さらに,WoMAPはTidyBot上での強力な一般化とシミュレートを実現することを示す。

関連論文リスト

Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-26T11:53:59Z)
AnyPlace: Learning Generalized Object Placement for Robot Manipulation [37.725807003481904]
合成データに基づく2段階の手法であるAnyPlaceを提案する。私たちのキーとなる洞察は、ビジョン・ランゲージ・モデルを活用することで、ローカルな配置のために、関連する領域のみに焦点を当てるということです。トレーニングのために、異なる配置構成でランダムに生成されたオブジェクトの完全な合成データセットを生成する。実世界の実験では、我々の手法が純粋に訓練されたモデルを直接現実世界に転送する方法が示されている。
論文参考訳（メタデータ） (2025-02-06T22:04:13Z)
Flex: End-to-End Text-Instructed Visual Navigation from Foundation Model Features [59.892436892964376]
本稿では,視覚に基づく制御ポリシを用いて,ロバストな閉ループ性能を実現するために必要な最小限のデータ要件とアーキテクチャ適応について検討する。この知見はFlex (Fly lexically) で合成され, 凍結パッチワイド特徴抽出器として, 事前学習された視覚言語モデル (VLM) を用いたフレームワークである。本研究では,本手法の有効性を,行動クローンによる訓練を実世界のシーンに応用した,四重項フライ・トゥ・ターゲットタスクに適用した。
論文参考訳（メタデータ） (2024-10-16T19:59:31Z)
E2Map: Experience-and-Emotion Map for Self-Reflective Robot Navigation with Language Models [16.50787220881633]
大規模言語モデル(LLM)は、言語命令を実行するためのエンボディエージェントを誘導する大きな可能性を示している。既存の手法は主に静的環境向けに設計されており、エージェント自身の経験を生かして初期計画を洗練しない。本研究は,LLMの知識とエージェントの現実世界の経験を統合した経験・感情マップ(E2Map)を紹介する。
論文参考訳（メタデータ） (2024-09-16T06:35:18Z)
Locate Anything on Earth: Advancing Open-Vocabulary Object Detection for Remote Sensing Community [58.417475846791234]
LAEタスクのための最初のオープンボキャブラリ基礎オブジェクト検出器であるLAE-DINOモデルを提案し,訓練する。我々は、確立されたリモートセンシングベンチマークDIOR、DOTAv2.0、および新たに発表された80クラスのLEE-80Cベンチマークについて実験を行った。その結果, LAE-1Mデータセットの利点と, LAE-DINO法の有効性が示された。
論文参考訳（メタデータ） (2024-08-17T06:24:43Z)
YOLO-World: Real-Time Open-Vocabulary Object Detection [87.08732047660058]
オープン語彙検出機能でYOLOを強化する革新的なアプローチであるYOLO-Worldを紹介する。提案手法は,ゼロショット方式で広範囲の物体を高効率で検出する。 YOLO-WorldはV100上で52.0 FPSの35.4 APを達成した。
論文参考訳（メタデータ） (2024-01-30T18:59:38Z)
Recognize Any Regions [55.76437190434433]
RegionSpotは、ローカライゼーション基盤モデルから位置認識ローカライゼーション知識と、ViLモデルからのセマンティック情報を統合する。オープンワールドオブジェクト認識の実験では、私たちのRereaSpotは、以前の代替よりも大きなパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2023-11-02T16:31:49Z)
Background Activation Suppression for Weakly Supervised Object Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文参考訳（メタデータ） (2023-09-22T15:44:10Z)
SEAL: Simultaneous Exploration and Localization in Multi-Robot Systems [0.0]
本稿では,新しい同時探索と局所化手法を提案する。相対的なローカライゼーションのために通信グラフ最適化を行いながら、最大探索に情報融合を用いる。広範囲なROS-Gazeboシミュレーションにおける探索および位置決め性能のショートエッジ法より優れたSEAL
論文参考訳（メタデータ） (2023-06-22T01:27:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。