論文の概要: LookOut: Real-World Humanoid Egocentric Navigation
- arxiv url: http://arxiv.org/abs/2508.14466v1
- Date: Wed, 20 Aug 2025 06:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-21 16:52:41.363132
- Title: LookOut: Real-World Humanoid Egocentric Navigation
- Title(参考訳): LookOut:現実世界の人間型エゴセントリックナビゲーション
- Authors: Boxiao Pan, Adam W. Harley, C. Karen Liu, Leonidas J. Guibas,
- Abstract要約: 本稿では,エゴセントリックな映像から将来の6Dヘッドポーズの列を予測するという課題を紹介する。
この課題を解決するために,時間的に集約された3次元潜伏特徴を考慮に入れた枠組みを提案する。
この分野のトレーニングデータが不足していることから,このアプローチを通じて収集されたデータセットを提示する。
- 参考スコア(独自算出の注目度): 61.14016011125957
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability to predict collision-free future trajectories from egocentric observations is crucial in applications such as humanoid robotics, VR / AR, and assistive navigation. In this work, we introduce the challenging problem of predicting a sequence of future 6D head poses from an egocentric video. In particular, we predict both head translations and rotations to learn the active information-gathering behavior expressed through head-turning events. To solve this task, we propose a framework that reasons over temporally aggregated 3D latent features, which models the geometric and semantic constraints for both the static and dynamic parts of the environment. Motivated by the lack of training data in this space, we further contribute a data collection pipeline using the Project Aria glasses, and present a dataset collected through this approach. Our dataset, dubbed Aria Navigation Dataset (AND), consists of 4 hours of recording of users navigating in real-world scenarios. It includes diverse situations and navigation behaviors, providing a valuable resource for learning real-world egocentric navigation policies. Extensive experiments show that our model learns human-like navigation behaviors such as waiting / slowing down, rerouting, and looking around for traffic while generalizing to unseen environments. Check out our project webpage at https://sites.google.com/stanford.edu/lookout.
- Abstract(参考訳): 衝突のない将来の軌道を自我中心の観測から予測する能力は、ヒューマノイドロボティクス、VR/AR、補助ナビゲーションなどの応用において不可欠である。
本研究では,エゴセントリックな映像から将来の6Dヘッドポーズの列を予測するという課題を紹介する。
特に、頭部翻訳と回転の両方を予測し、頭部回転イベントを通して表現される能動的情報収集の挙動を学習する。
この課題を解決するために,静的および動的部分の幾何学的制約と意味的制約をモデル化し,時間的に集約された3次元潜伏特徴を考慮に入れたフレームワークを提案する。
この分野のトレーニングデータが不足していることから,Project Aria メガネを用いたデータ収集パイプラインの寄贈や,このアプローチを通じて収集されたデータセットの提示が期待できる。
私たちのデータセットは、Aria Navigation Dataset (AND)と呼ばれ、現実世界のシナリオでナビゲートするユーザの4時間の録画で構成されています。
多様な状況やナビゲーション行動を含み、現実世界のエゴセントリックなナビゲーションポリシーを学ぶための貴重なリソースを提供する。
大規模な実験により、我々のモデルは、待ち時間や減速、リルーチン、トラフィックの回避など、人間のようなナビゲーション行動を学びながら、目に見えない環境に一般化していることがわかった。
プロジェクトのWebページはhttps://sites.google.com/stanford.edu/lookout.comにある。
関連論文リスト
- NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - AdaVLN: Towards Visual Language Navigation in Continuous Indoor Environments with Moving Humans [2.940962519388297]
適応視覚言語ナビゲーション(Adaptive Visual Language Navigation, AdaVLN)と呼ばれるタスクの拡張を提案する。
AdaVLNは、人間の障害物が動的に動く複雑な3D屋内環境をナビゲートするロボットを必要とする。
本稿では,この課題をベースラインモデルとして評価し,AdaVLNが導入したユニークな課題を分析し,VLN研究におけるシミュレートと現実のギャップを埋める可能性を示す。
論文 参考訳(メタデータ) (2024-11-27T17:36:08Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - SACSoN: Scalable Autonomous Control for Social Navigation [62.59274275261392]
我々は、社会的に邪魔にならないナビゲーションのための政策の訓練方法を開発した。
この反事実的摂動を最小化することにより、共有空間における人間の自然な振る舞いを変えない方法でロボットに行動を促すことができる。
屋内移動ロボットが人間の傍観者と対話する大規模なデータセットを収集する。
論文 参考訳(メタデータ) (2023-06-02T19:07:52Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z) - Visual Navigation Among Humans with Optimal Control as a Supervisor [72.5188978268463]
そこで本研究では,学習に基づく知覚とモデルに基づく最適制御を組み合わせることで,人間間をナビゲートする手法を提案する。
私たちのアプローチは、新しいデータ生成ツールであるHumANavによって実現されています。
学習したナビゲーションポリシーは、将来の人間の動きを明示的に予測することなく、人間に予測し、反応できることを実証する。
論文 参考訳(メタデータ) (2020-03-20T16:13:47Z) - Counterfactual Vision-and-Language Navigation via Adversarial Path Sampling [65.99956848461915]
VLN(Vision-and-Language Navigation)は、エージェントが目標を達成するために3D環境を移動する方法を決定するタスクである。
VLNタスクの問題点の1つは、対話型環境において、人間に注釈を付けた指示で十分なナビゲーションパスを収集することは困難であるため、データの不足である。
本稿では,低品質な拡張データではなく,効果的な条件を考慮可能な,対向駆動の反実的推論モデルを提案する。
論文 参考訳(メタデータ) (2019-11-17T18:02:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。