Fugu-MT 論文翻訳(概要): Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance

論文の概要: Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance

arxiv url: http://arxiv.org/abs/2512.11173v2
Date: Sun, 15 Feb 2026 00:23:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.292091
Title: Learning Category-level Last-meter Navigation from RGB Demonstrations of a Single-instance
Title（参考訳）: 単一インスタンスのRGBデモからカテゴリーレベルのラストメーターナビゲーションを学習する
Authors: Tzu-Hsien Lee, Fidan Mahmudova, Karthik Desingh,
Abstract要約: ほとんどのRGBベースのナビゲーションシステムは、粗いメートルレベルの精度しか保証していない。このギャップは、操作ポリシーがトレーニングデモの配布内で動作することを防ぐ。我々は、ラストメーターナビゲーションのためのオブジェクト中心の模倣学習フレームワークを導入する。
参考スコア（独自算出の注目度）: 5.161531917413708
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Achieving precise positioning of the mobile manipulator's base is essential for successful manipulation actions that follow. Most of the RGB-based navigation systems only guarantee coarse, meter-level accuracy, making them less suitable for the precise positioning phase of mobile manipulation. This gap prevents manipulation policies from operating within the distribution of their training demonstrations, resulting in frequent execution failures. We address this gap by introducing an object-centric imitation learning framework for last-meter navigation, enabling a quadruped mobile manipulator robot to achieve manipulation-ready positioning using only RGB observations from its onboard cameras. Our method conditions the navigation policy on three inputs: goal images, multi-view RGB observations from the onboard cameras, and a text prompt specifying the target object. A language-driven segmentation module and a spatial score-matrix decoder then supply explicit object grounding and relative pose reasoning. Using real-world data from a single object instance within a category, the system generalizes to unseen object instances across diverse environments with challenging lighting and background conditions. To comprehensively evaluate this, we introduce two metrics: an edge-alignment metric, which uses ground truth orientation, and an object-alignment metric, which evaluates how well the robot visually faces the target. Under these metrics, our policy achieves 73.47% success in edge-alignment and 96.94% success in object-alignment when positioning relative to unseen target objects. These results show that precise last-meter navigation can be achieved at a category-level without depth, LiDAR, or map priors, enabling a scalable pathway toward unified mobile manipulation. Project page: https://rpm-lab-umn.github.io/category-level-last-meter-nav/
Abstract（参考訳）: 移動マニピュレータの基盤の正確な位置決めは、後続の操作を成功させるには不可欠である。 RGBベースのナビゲーションシステムの多くは、粗いメーターレベルの精度しか保証していないため、モバイル操作の正確な位置決めフェーズには適さない。このギャップは、操作ポリシがトレーニングデモの配布内で動作することを防ぎ、頻繁な実行障害を引き起こす。このギャップに対処するために、最終メーターナビゲーションのためのオブジェクト中心の模倣学習フレームワークを導入し、搭載カメラからのRGB観測のみを使用して、四脚移動マニピュレータロボットによる操作可能な位置決めを実現した。本手法では, 目標画像, 搭載カメラからの多視点RGB観測, 対象物を指定するテキストプロンプトの3つの入力に対して, ナビゲーションポリシーを定めている。言語駆動セグメンテーションモジュールと空間スコア行列デコーダは、明示的なオブジェクトグラウンドと相対的なポーズ推論を提供する。システムは、カテゴリ内の1つのオブジェクトインスタンスからの実世界データを使用することで、さまざまな環境にまたがってオブジェクトインスタンスを見えないように一般化し、ライトと背景条件に挑戦する。これを総合的に評価するために、地上の真理方向を用いたエッジアライメント・メトリックと、目標に対するロボットの視力を評価するオブジェクトアライメント・メトリックという2つの指標を導入する。これらの指標の下で、我々の政策は、エッジアライメントにおいて73.47%の成功と、未確認対象物に対する位置決めにおいて96.94%の成功を達成する。これらの結果から, 深度やLiDAR, マップ事前を使わずに, カテゴリーレベルでの高精度な最終距離ナビゲーションが実現できることが示唆された。プロジェクトページ:https://rpm-lab-umn.github.io/category-level-last-meter-nav/

関連論文リスト

ReasonNavi: Human-Inspired Global Map Reasoning for Zero-Shot Embodied Navigation [53.95797153529148]
身体的エージェントは、主に部分的な自我中心の観測に依存するため、効率的なナビゲーションに苦しむことが多い。本稿では,マルチモーダル大規模言語モデル(MLLM)と決定論的プランナを結合することにより,この理由に基づくパラダイムを運用する,人間にインスパイアされたフレームワークであるReasonNaviを紹介する。
論文参考訳（メタデータ） (2026-01-26T19:09:20Z)
MetricNet: Recovering Metric Scale in Generative Navigation Policies [51.90872764552077]
MetricNetは、ウェイポイント間の距離を予測するジェネレーティブナビゲーションのための効果的なアドオンである。 MetricNetスケールのウェイポイントの実行はナビゲーションと探索の両方のパフォーマンスを大幅に改善することを示す。また、MetricNetをナビゲーションポリシーに統合し、目標に向かって移動しながら障害物からロボットを誘導するMetricNavを提案する。
論文参考訳（メタデータ） (2025-09-17T13:37:13Z)
TANGO: Traversability-Aware Navigation with Local Metric Control for Topological Goals [10.69725316052444]
ゼロショット・ロングホライゾン・ロボットナビゲーションを可能にする新しいRGBのみのオブジェクトレベルのトポロジカルナビゲーションパイプラインを提案する。提案手法は,グローバルなトポロジカルパス計画と局所的軌跡制御を統合し,障害物を避けつつ,ロボットがオブジェクトレベルのサブゴールに向かって移動できるようにする。シミュレーション環境と実世界の両方のテストにおいて,本手法の有効性を実証し,その堅牢性とデプロイ性を強調した。
論文参考訳（メタデータ） (2025-09-10T15:43:32Z)
Pointing-Guided Target Estimation via Transformer-Based Attention [8.35701920541908]
ディスティックなジェスチャーは、指さすように、人間が特定の物体や場所に直接注意を向けることを可能にする非言語コミュニケーションの基本的な形態である。この能力は、ロボットが人間の意図を予測し、適切な反応を予測できるHRI(Human-Robot Interaction)において不可欠である。 NICOLロボットを用いて制御テーブルトップシナリオにおけるオブジェクトの予測を行うモジュールアーキテクチャであるMulti-Modality Inter-TransFormer (MM-ITF)を提案する。
論文参考訳（メタデータ） (2025-09-05T11:42:03Z)
MoMa-Kitchen: A 100K+ Benchmark for Affordance-Grounded Last-Mile Navigation in Mobile Manipulation [46.30498198691935]
MoMa-Kitchenは、最適な最終ナビゲーション位置を学習するためのトレーニングモデルのためのベンチマークデータセットである。視覚データは、ロボットアームに取り付けられた1人称ビューカメラによってキャプチャされたRGB-D入力から収集される。提案手法は,異なるアームタイプとプラットフォームの高さに対応する,アベイランスに基づく最終的な位置決めの学習を可能にする。
論文参考訳（メタデータ） (2025-03-14T04:47:38Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
Interactive Semantic Map Representation for Skill-based Visual Object Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文参考訳（メタデータ） (2023-11-07T16:30:12Z)
NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文参考訳（メタデータ） (2023-10-11T21:07:14Z)
Object-and-Action Aware Model for Visual Language Navigation [70.33142095637515]
VLN(Vision-and-Language Navigation)は、比較的一般的な自然言語命令をロボットエージェントアクションに変換する必要があるという点で特徴的である。本稿では、これらの2種類の自然言語に基づく命令を別々に処理するオブジェクト・アンド・アクション・アウェア・モデル(OAAM)を提案する。これにより、各プロセスは、オブジェクト中心/アクション中心の命令を、自身の視覚的知覚/行動指向に柔軟に一致させることができる。
論文参考訳（メタデータ） (2020-07-29T06:32:18Z)
Extending Maps with Semantic and Contextual Object Information for Robot Navigation: a Learning-Based Framework using Visual and Depth Cues [12.984393386954219]
本稿では,RGB-D画像からのセマンティック情報を用いて,シーンのメートル法表現を付加する問題に対処する。オブジェクトレベルの情報を持つ環境の地図表現を拡張化するための完全なフレームワークを提案する。
論文参考訳（メタデータ） (2020-03-13T15:05:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。