Fugu-MT 論文翻訳(概要): Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach

論文の概要: Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach

arxiv url: http://arxiv.org/abs/2502.00114v1
Date: Fri, 31 Jan 2025 19:03:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:53.334866
Title: Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach
Title（参考訳）: 手描き地図を用いた移動ロボットナビゲーション : 視覚言語モデルによるアプローチ
Authors: Aaron Hao Tan, Angus Fung, Haitong Wang, Goldie Nejat,
Abstract要約: 本稿では,手書き地図ナビゲーション(HAM-Nav)アーキテクチャを提案する。 HAM-Navは、トポロジカルマップに基づく位置推定のためのユニークな選択型視覚アソシエーション・プロンプティング・アプローチを統合する。車輪付きロボットと脚付きロボットを用いてシミュレーション環境で実験を行った。
参考スコア（独自算出の注目度）: 5.009635912655658
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Hand-drawn maps can be used to convey navigation instructions between humans and robots in a natural and efficient manner. However, these maps can often contain inaccuracies such as scale distortions and missing landmarks which present challenges for mobile robot navigation. This paper introduces a novel Hand-drawn Map Navigation (HAM-Nav) architecture that leverages pre-trained vision language models (VLMs) for robot navigation across diverse environments, hand-drawing styles, and robot embodiments, even in the presence of map inaccuracies. HAM-Nav integrates a unique Selective Visual Association Prompting approach for topological map-based position estimation and navigation planning as well as a Predictive Navigation Plan Parser to infer missing landmarks. Extensive experiments were conducted in photorealistic simulated environments, using both wheeled and legged robots, demonstrating the effectiveness of HAM-Nav in terms of navigation success rates and Success weighted by Path Length. Furthermore, a user study in real-world environments highlighted the practical utility of hand-drawn maps for robot navigation as well as successful navigation outcomes.
Abstract（参考訳）: 手描きの地図は、人間とロボットの間のナビゲーションの指示を自然かつ効率的に伝達するために使用することができる。しかし、これらの地図は、スケールの歪みや、移動ロボットナビゲーションの課題を示すランドマークの欠如などの不正確さをしばしば含んでいる。本稿では,HAM-Navアーキテクチャを提案する。このアーキテクチャは,地図不正確性の存在下においても,多様な環境,手書きスタイル,ロボットの動作に事前学習された視覚言語モデル(VLM)を利用する。 HAM-Navは、トポロジカルマップに基づく位置推定とナビゲーション計画のためのユニークなSelective Visual Association Promptingアプローチと、行方不明のランドマークを推測するための予測ナビゲーションプランパーザを統合している。 HAM-Navの航法成功率とパス長の重み付けによる成功率の両面での有効性を実証し、車輪付きロボットと脚付きロボットの両方を用いたフォトリアリスティックシミュレーション環境で広範囲な実験を行った。さらに,実環境におけるユーザスタディでは,ロボットナビゲーションやナビゲーション成功のための手描き地図の実用性を強調した。

関連論文リスト

Vi-LAD: Vision-Language Attention Distillation for Socially-Aware Robot Navigation in Dynamic Environments [41.75629159747654]
社会に適合したナビゲーション知識を蒸留する新しいアプローチであるVi-LAD(Vision-Language Attention Distillation)を紹介する。 Vi-LADは、事前学習された視覚行動モデルから抽出された中間注意マップを用いたトランスフォーマーベースモデルを微調整する。我々は,ハスキー車輪付きロボットによる実世界実験を通じて,我々のアプローチを検証するとともに,最先端のナビゲーション手法に対する大幅な改善を実証した。
論文参考訳（メタデータ） (2025-03-12T20:38:23Z)
VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [11.140494493881075]
低消費電力ロボットのための視覚言語ナビゲーション(VL-Nav)システムを提案する。ロボットを誘導する単一画像レベルの特徴類似性に依存する従来の手法とは異なり、視覚ビジョン言語(HVL)を導入する。ピクセル単位の視覚言語機能と探索を組み合わせることで、人間に指示されたインスタンスへの効率的なナビゲーションを堅牢に実現する。
論文参考訳（メタデータ） (2025-02-02T21:44:15Z)
CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [19.997935470257794]
本稿では,コモンセンス認識ナビゲーションのための視覚的および言語的指示を組み合わせたフレームワークであるCANVASを提案する。その成功は模倣学習によって引き起こされ、ロボットは人間のナビゲーション行動から学ぶことができる。実験の結果,CANVASはすべての環境において,強力なルールベースシステムであるROS NavStackよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-10-02T06:34:45Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
Learning Navigational Visual Representations with Semantic Map Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。 Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文参考訳（メタデータ） (2023-07-23T14:01:05Z)
ETPNav: Evolving Topological Planning for Vision-Language Navigation in Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。 ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文参考訳（メタデータ） (2023-04-06T13:07:17Z)
Gesture2Path: Imitation Learning for Gesture-aware Navigation [54.570943577423094]
Gesture2Pathは、画像に基づく模倣学習とモデル予測制御を組み合わせた新しいソーシャルナビゲーション手法である。実際のロボットに本手法をデプロイし,4つのジェスチャーナビゲーションシナリオに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2022-09-19T23:05:36Z)
LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文参考訳（メタデータ） (2022-07-10T10:41:50Z)
ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。学習と計画を統合する学習に基づくアプローチを提案する。 ViKiNGは、画像ベースの学習コントローラを利用できる。
論文参考訳（メタデータ） (2022-02-23T02:14:23Z)
Topological Planning with Transformers for Vision-and-Language Navigation [31.64229792521241]
トポロジカルマップを用いた視覚・言語ナビゲーション(VLN)のモジュール化手法を提案する。自然言語指導とトポロジカルマップが与えられた場合,マップ内のナビゲーション計画を予測するために注意機構を利用する。実験では,従来のエンドツーエンドアプローチを上回り,解釈可能なナビゲーションプランを生成し,バックトラックなどのインテリジェントな行動を示す。
論文参考訳（メタデータ） (2020-12-09T20:02:03Z)
APPLD: Adaptive Planner Parameter Learning from Demonstration [48.63930323392909]
本稿では,既存のナビゲーションシステムを新しい複雑な環境に適用可能な,適応プランナー学習(Adaptive Planner Learning from Demonstration)のAPPLDを紹介する。 APPLDは異なる環境で異なるナビゲーションシステムを実行する2つのロボットで検証されている。実験結果から,APPLDはナビゲーションシステムよりも,デフォルトパラメータや専門家パラメータ,さらには人間実証者自体よりも優れていることが示された。
論文参考訳（メタデータ） (2020-03-31T21:15:16Z)
Robot Navigation in Unseen Spaces using an Abstract Map [11.473894284561878]
ロボットナビゲーションシステムでは,人間と同じ記号空間情報を用いて,目立たない環境を意図的にナビゲートする。本稿では,動的システムを用いて抽象地図の縮尺可能な空間モデルを作成する方法を示し,シンボルナビゲーションの領域における将来的な作業を促進するためのオープンソース実装を提供する。本稿は,人間のナビゲーション戦略を質的に分析し,目立たない環境におけるロボットの象徴的なナビゲーション能力が今後どのように改善されるかについて,さらなる知見を提供する。
論文参考訳（メタデータ） (2020-01-31T07:40:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。