論文の概要: CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance
- arxiv url: http://arxiv.org/abs/2503.03921v1
- Date: Wed, 05 Mar 2025 21:42:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-07 16:00:46.561002
- Title: CREStE: Scalable Mapless Navigation with Internet Scale Priors and Counterfactual Guidance
- Title(参考訳): CREStE: インターネットスケールプライオリティと非現実的なガイダンスを備えたスケーラブルなマップレスナビゲーション
- Authors: Arthur Zhang, Harshit Sikchi, Amy Zhang, Joydeep Biswas,
- Abstract要約: CREStEは完全なマップレスナビゲーション問題に対処するための表現と報酬を学ぶ。
我々はCREStEを6つの異なる都市環境におけるキロメートル規模のナビゲーションタスクで評価した。
- 参考スコア(独自算出の注目度): 13.922655150502365
- License:
- Abstract: We address the long-horizon mapless navigation problem: enabling robots to traverse novel environments without relying on high-definition maps or precise waypoints that specify exactly where to navigate. Achieving this requires overcoming two major challenges -- learning robust, generalizable perceptual representations of the environment without pre-enumerating all possible navigation factors and forms of perceptual aliasing and utilizing these learned representations to plan human-aligned navigation paths. Existing solutions struggle to generalize due to their reliance on hand-curated object lists that overlook unforeseen factors, end-to-end learning of navigation features from scarce large-scale robot datasets, and handcrafted reward functions that scale poorly to diverse scenarios. To overcome these limitations, we propose CREStE, the first method that learns representations and rewards for addressing the full mapless navigation problem without relying on large-scale robot datasets or manually curated features. CREStE leverages visual foundation models trained on internet-scale data to learn continuous bird's-eye-view representations capturing elevation, semantics, and instance-level features. To utilize learned representations for planning, we propose a counterfactual-based loss and active learning procedure that focuses on the most salient perceptual cues by querying humans for counterfactual trajectory annotations in challenging scenes. We evaluate CREStE in kilometer-scale navigation tasks across six distinct urban environments. CREStE significantly outperforms all state-of-the-art approaches with 70% fewer human interventions per mission, including a 2-kilometer mission in an unseen environment with just 1 intervention; showcasing its robustness and effectiveness for long-horizon mapless navigation. For videos and additional materials, see https://amrl.cs.utexas.edu/creste .
- Abstract(参考訳): ロボットは、高解像度の地図や、正確なナビゲーション場所を指定する正確なウェイポイントを使わずに、新しい環境を横断することができる。
この達成には2つの大きな課題を克服する必要がある - すべての可能なナビゲーション要素や知覚的エイリアス形式を事前に列挙することなく、堅牢で一般化可能な、環境の知覚的表現を学習し、これらの学習された表現を活用して、ヒューマンアラインなナビゲーションパスを計画する。
既存のソリューションは、予期せぬ要因を見渡す、手作業によるオブジェクトリストへの依存、小規模の大規模ロボットデータセットからのナビゲーション機能のエンドツーエンド学習、多種多様なシナリオに乏しい手作業による報酬機能など、一般化に苦慮している。
これらの制限を克服するために,大規模なロボットデータセットや手作業によるキュレート機能に頼ることなく,地図レスナビゲーション問題に対処するための表現と報酬を学習する最初の方法であるCREStEを提案する。
CREStEは、インターネットスケールのデータに基づいてトレーニングされた視覚基盤モデルを利用して、標高、セマンティクス、インスタンスレベルの特徴を捉えた連続した鳥の目視表現を学習する。
学習した表現を計画に活用するために,課題場面における擬似的軌跡アノテーションを人間に問うことで,最も顕著な知覚的手がかりに焦点をあてた,対物的損失とアクティブな学習手順を提案する。
我々はCREStEを6つの異なる都市環境におけるキロメートル規模のナビゲーションタスクで評価した。
CREStEは、ミッション当たり70%の人的介入で最先端のアプローチを著しく上回り、わずか1回の介入で2キロのミッションを行う。
ビデオや追加資料については、https://amrl.cs.utexas.edu/creste を参照してください。
関連論文リスト
- NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - CityWalker: Learning Embodied Urban Navigation from Web-Scale Videos [11.912608309403359]
我々は,人間のような都市ナビゲーションのためのスケーラブルでデータ駆動型アプローチを提案する。
われわれは何千時間もの間、何千時間もの街を歩きながらウェブから動画を流すエージェントを訓練している。
我々のモデルは、多様な課題や重要なシナリオを扱うために洗練されたナビゲーションポリシーを学びます。
論文 参考訳(メタデータ) (2024-11-26T19:02:20Z) - Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation [11.667940255053582]
本稿では,RGBとトレーニングシーンの深度情報を用いて特徴抽出器の事前訓練を行い,ナビゲーション効率を向上する。
提案手法をAI2-ThorとRobothorで評価し,成功率と航法効率において最先端(SOTA)法を著しく上回っていることを示した。
論文 参考訳(メタデータ) (2024-06-20T08:35:10Z) - E(2)-Equivariant Graph Planning for Navigation [26.016209191573605]
2次元ナビゲーションの計画においてユークリッド対称性を利用する。
非構造環境の課題に対処するため,幾何グラフの計画としてナビゲーション問題を定式化する。
論文 参考訳(メタデータ) (2023-09-22T17:59:48Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ETPNav: Evolving Topological Planning for Vision-Language Navigation in
Continuous Environments [56.194988818341976]
視覚言語ナビゲーションは、エージェントが環境中をナビゲートするための指示に従う必要があるタスクである。
本研究では,1)環境を抽象化し,長距離航法計画を生成する能力,2)連続環境における障害物回避制御能力の2つの重要なスキルに焦点を当てたETPNavを提案する。
ETPNavは、R2R-CEとRxR-CEデータセットの先行技術よりも10%以上、20%改善されている。
論文 参考訳(メタデータ) (2023-04-06T13:07:17Z) - Offline Reinforcement Learning for Visual Navigation [66.88830049694457]
ReViNDは、ロボットナビゲーションのための最初のオフラインRLシステムで、これまで収集されたデータを利用して、現実世界でユーザーが指定した報酬関数を最適化する。
ReViNDは、このデータセットからのオフライントレーニングのみを使用して、遠方の目標にナビゲートできることを示し、ユーザ指定の報酬関数に基づいて、質的に異なる振る舞いを示す。
論文 参考訳(メタデータ) (2022-12-16T02:23:50Z) - Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。
対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。
その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-30T09:41:40Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。