論文の概要: MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation
- arxiv url: http://arxiv.org/abs/2503.11081v1
- Date: Fri, 14 Mar 2025 04:47:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:08:26.359757
- Title: MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation
- Title(参考訳): MoMa-Kitchen: モバイル操作におけるAffordance-Grounded Last-Mile Navigationのための100K以上のベンチマーク
- Authors: Pingrui Zhang, Xianqiang Gao, Yuhan Wu, Kehui Liu, Dong Wang, Zhigang Wang, Bin Zhao, Yan Ding, Xuelong Li,
- Abstract要約: MoMa-Kitchenは、最適な最終ナビゲーション位置を学習するためのトレーニングモデルのためのベンチマークデータセットである。
視覚データは、ロボットアームに取り付けられた1人称ビューカメラによってキャプチャされたRGB-D入力から収集される。
提案手法は,異なるアームタイプとプラットフォームの高さに対応する,アベイランスに基づく最終的な位置決めの学習を可能にする。
- 参考スコア(独自算出の注目度): 46.30498198691935
- License:
- Abstract: In mobile manipulation, navigation and manipulation are often treated as separate problems, resulting in a significant gap between merely approaching an object and engaging with it effectively. Many navigation approaches primarily define success by proximity to the target, often overlooking the necessity for optimal positioning that facilitates subsequent manipulation. To address this, we introduce MoMa-Kitchen, a benchmark dataset comprising over 100k samples that provide training data for models to learn optimal final navigation positions for seamless transition to manipulation. Our dataset includes affordance-grounded floor labels collected from diverse kitchen environments, in which robotic mobile manipulators of different models attempt to grasp target objects amidst clutter. Using a fully automated pipeline, we simulate diverse real-world scenarios and generate affordance labels for optimal manipulation positions. Visual data are collected from RGB-D inputs captured by a first-person view camera mounted on the robotic arm, ensuring consistency in viewpoint during data collection. We also develop a lightweight baseline model, NavAff, for navigation affordance grounding that demonstrates promising performance on the MoMa-Kitchen benchmark. Our approach enables models to learn affordance-based final positioning that accommodates different arm types and platform heights, thereby paving the way for more robust and generalizable integration of navigation and manipulation in embodied AI. Project page: \href{https://momakitchen.github.io/}{https://momakitchen.github.io/}.
- Abstract(参考訳): 移動体操作では、ナビゲーションと操作は別々の問題として扱われることが多く、結果として単にオブジェクトに近づき、効果的にそれに取り組むことの間に大きなギャップが生じる。
多くのナビゲーションアプローチは、主にターゲットに近接して成功を定義するが、多くの場合、その後の操作を容易にする最適な位置決めの必要性を見落としている。
この問題を解決するために,100万以上のサンプルからなるベンチマークデータセットであるMoMa-Kitchenを導入し,モデルが操作へのシームレスな遷移のために最適な最終ナビゲーション位置を学習するためのトレーニングデータを提供する。
私たちのデータセットには、さまざまなキッチン環境から収集された空き地によるフロアラベルが含まれています。
完全に自動化されたパイプラインを用いて、さまざまな実世界のシナリオをシミュレートし、最適な操作位置のための割当ラベルを生成する。
視覚データは、ロボットアームに取り付けられた1人称ビューカメラによってキャプチャされたRGB-D入力から収集され、データ収集時の視点の整合性を保証する。
また,MoMa-Kitchenベンチマークで有望な性能を示す軽量なベースラインモデルであるNavAffを開発した。
当社のアプローチでは,異なるアームタイプやプラットフォームの高さに対応可能なアベイランスベースの最終的な位置決めを学習し,より堅牢で汎用的なナビゲーションと操作の組込み型AIへの統合を実現する。
プロジェクトページ: \href{https://momakitchen.github.io/}{https://momakitchen.github.io/}
関連論文リスト
- A Training-Free Framework for Precise Mobile Manipulation of Small Everyday Objects [16.018172627950857]
我々は,小型物体の操作を伴う精密な作業にモバイルマニピュレータが取り組むことができるクローズドループトレーニングフリーフレームワークを開発した。
SVMはRGB-D手首カメラを使用し、制御にビジュアルサーボを使用する。
オープンボキャブラリオブジェクト検出器は,セマンティックターゲットを識別するためのドロップインモジュールとして機能することを示す。
論文 参考訳(メタデータ) (2025-02-19T18:59:17Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - CabiNet: Scaling Neural Collision Detection for Object Rearrangement
with Procedural Scene Generation [54.68738348071891]
私たちはまず、さまざまな日常環境において、650万以上の散らばったシーン(前よりも桁違いに多い)を生成します。
このデータから合成部分点雲をレンダリングし、それをCabiNetモデルアーキテクチャのトレーニングに使用します。
CabiNetは、オブジェクトとシーンポイントの雲を受け入れる衝突モデルである。
論文 参考訳(メタデータ) (2023-04-18T21:09:55Z) - PEANUT: Predicting and Navigating to Unseen Targets [18.87376347895365]
新しい環境における効率的なObjectGoalナビゲーション(ObjectNav)は、環境レイアウトにおける空間的および意味的規則性を理解する必要がある。
不完全なセマンティックマップから観測対象の位置を予測し,これらの規則性を学習する手法を提案する。
我々の予測モデルは軽量であり、比較的少量の受動的収集データを用いて教師付きで訓練することができる。
論文 参考訳(メタデータ) (2022-12-05T18:58:58Z) - Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文 参考訳(メタデータ) (2022-02-02T15:00:44Z) - Vision-Language Navigation with Random Environmental Mixup [112.94609558723518]
視覚言語ナビゲーション(VLN)タスクは、視覚的な観察を認識し、自然言語の命令を解釈しながら、エージェントがステップバイステップでナビゲートする必要がある。
従来の研究では、データのバイアスを減らすために様々なデータ拡張手法が提案されている。
本研究では,混成環境を介し,相互接続された住宅シーンを付加データとして生成するランダム環境混成(REM)手法を提案する。
論文 参考訳(メタデータ) (2021-06-15T04:34:26Z) - Simultaneous Detection and Tracking with Motion Modelling for Multiple
Object Tracking [94.24393546459424]
本稿では,複数の物体の運動パラメータを推定し,共同検出と関連付けを行うディープ・モーション・モデリング・ネットワーク(DMM-Net)を提案する。
DMM-Netは、人気の高いUA-DETRACチャレンジで12.80 @120+ fpsのPR-MOTAスコアを達成した。
また,車両追跡のための大規模な公開データセットOmni-MOTを合成し,精密な接地トルースアノテーションを提供する。
論文 参考訳(メタデータ) (2020-08-20T08:05:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。