論文の概要: Human-like Navigation in a World Built for Humans
- arxiv url: http://arxiv.org/abs/2509.21189v1
- Date: Thu, 25 Sep 2025 14:04:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-26 20:58:12.962295
- Title: Human-like Navigation in a World Built for Humans
- Title(参考訳): 人間用に作られた世界における人間のようなナビゲーション
- Authors: Bhargav Chandaka, Gloria X. Wang, Haozhe Chen, Henry Che, Albert J. Zhai, Shenlong Wang,
- Abstract要約: ReasonNavは、人間のようなナビゲーションスキルを統合したモジュラーナビゲーションシステムである。
ナビゲーションのランドマークに基づいた,コンパクトな入力と出力の抽象化を設計する。
ReasonNavは、大規模で複雑な建物を効率的に航行するために、高次推論をうまく採用している。
- 参考スコア(独自算出の注目度): 23.303995665820846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: When navigating in a man-made environment they haven't visited before--like an office building--humans employ behaviors such as reading signs and asking others for directions. These behaviors help humans reach their destinations efficiently by reducing the need to search through large areas. Existing robot navigation systems lack the ability to execute such behaviors and are thus highly inefficient at navigating within large environments. We present ReasonNav, a modular navigation system which integrates these human-like navigation skills by leveraging the reasoning capabilities of a vision-language model (VLM). We design compact input and output abstractions based on navigation landmarks, allowing the VLM to focus on language understanding and reasoning. We evaluate ReasonNav on real and simulated navigation tasks and show that the agent successfully employs higher-order reasoning to navigate efficiently in large, complex buildings.
- Abstract(参考訳): 人為的な環境をナビゲートする際には、前もって訪れなかった、例えばオフィスビルのように、人は標識を読んで、他の人に道順を尋ねるといった行動をとる。
これらの行動は、広い領域を探索する必要性を減らすことで、人間が目的地に効率的に到達するのに役立ちます。
既存のロボットナビゲーションシステムはそのような動作を実行する能力に欠けており、大規模な環境でのナビゲーションでは極めて非効率である。
本稿では、視覚言語モデル(VLM)の推論能力を活用することで、これらの人間的なナビゲーションスキルを統合するモジュールナビゲーションシステムであるReasonNavを紹介する。
我々はナビゲーションのランドマークに基づくコンパクトな入力と出力の抽象化を設計し、VLMが言語理解と推論に集中できるようにする。
我々はReasonNavを実およびシミュレートされたナビゲーションタスクで評価し、エージェントが高次推論を用いて、大規模で複雑な建物を効率的にナビゲートできることを示す。
関連論文リスト
- VL-Nav: Real-time Vision-Language Navigation with Spatial Reasoning [11.140494493881075]
低消費電力ロボットに効率的な空間推論を組み込んだ視覚言語ナビゲーション(VL-Nav)システムを提案する。
ロボットを誘導するための単一の画像レベルの特徴類似性に依存する従来の手法とは異なり、本手法は画素単位の視覚言語機能と好奇心駆動探索を統合している。
VL-Navは、全体の成功率86.3%に達し、以前の手法を44.15%上回った。
論文 参考訳(メタデータ) (2025-02-02T21:44:15Z) - CANVAS: Commonsense-Aware Navigation System for Intuitive Human-Robot Interaction [19.997935470257794]
本稿では,コモンセンス認識ナビゲーションのための視覚的および言語的指示を組み合わせたフレームワークであるCANVASを提案する。
その成功は模倣学習によって引き起こされ、ロボットは人間のナビゲーション行動から学ぶことができる。
実験の結果,CANVASはすべての環境において,強力なルールベースシステムであるROS NavStackよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-02T06:34:45Z) - CoNav: A Benchmark for Human-Centered Collaborative Navigation [66.6268966718022]
協調ナビゲーション(CoNav)ベンチマークを提案する。
われわれのCoNavは、現実的で多様な人間の活動を伴う3Dナビゲーション環境を構築するという重要な課題に取り組む。
本研究では,長期的意図と短期的意図の両方を推論する意図認識エージェントを提案する。
論文 参考訳(メタデータ) (2024-06-04T15:44:25Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。
対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。
その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-30T09:41:40Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。