論文の概要: Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space
- arxiv url: http://arxiv.org/abs/2512.21887v1
- Date: Fri, 26 Dec 2025 06:22:39 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:00:07.672217
- Title: Aerial World Model for Long-horizon Visual Generation and Navigation in 3D Space
- Title(参考訳): 3次元空間における長距離視覚生成とナビゲーションのための航空世界モデル
- Authors: Weichen Zhang, Peizhi Tang, Xin Zeng, Fanhang Man, Shiquan Yu, Zichao Dai, Baining Zhao, Hongjin Chen, Yu Shang, Wei Wu, Chen Gao, Xinlei Chen, Xin Wang, Yong Li, Wenwu Zhu,
- Abstract要約: 本稿では,過去のフレームや行動に照らされた将来の視覚的観察を予測する航空ナビゲーションワールドモデルANWMを提案する。
ANWMは4-DoF UAV軌道で訓練され、物理学にインスパイアされたモジュールであるFuture Frame Projectionを導入した。
実験により、ANWMは長距離視覚予測において既存の世界を著しく上回り、大規模環境でのUAV航法成功率を向上させることが示された。
- 参考スコア(独自算出の注目度): 48.19308247102762
- License:
- Abstract: Unmanned aerial vehicles (UAVs) have emerged as powerful embodied agents. One of the core abilities is autonomous navigation in large-scale three-dimensional environments. Existing navigation policies, however, are typically optimized for low-level objectives such as obstacle avoidance and trajectory smoothness, lacking the ability to incorporate high-level semantics into planning. To bridge this gap, we propose ANWM, an aerial navigation world model that predicts future visual observations conditioned on past frames and actions, thereby enabling agents to rank candidate trajectories by their semantic plausibility and navigational utility. ANWM is trained on 4-DoF UAV trajectories and introduces a physics-inspired module: Future Frame Projection (FFP), which projects past frames into future viewpoints to provide coarse geometric priors. This module mitigates representational uncertainty in long-distance visual generation and captures the mapping between 3D trajectories and egocentric observations. Empirical results demonstrate that ANWM significantly outperforms existing world models in long-distance visual forecasting and improves UAV navigation success rates in large-scale environments.
- Abstract(参考訳): 無人航空機(UAV)は強力なエンボディエージェントとして登場している。
コアとなる能力の1つは、大規模な3次元環境における自律的なナビゲーションである。
しかし、既存のナビゲーションポリシーは、通常、障害物回避や軌道の滑らかさといった低レベルの目的に最適化されており、計画に高レベルのセマンティクスを組み込む能力が欠如している。
このギャップを埋めるために、過去のフレームや行動に条件付けられた将来の視覚的観察を予測し、エージェントがそれらの意味的妥当性とナビゲーションの有用性で候補軌跡をランク付けできる航空ナビゲーション世界モデルANWMを提案する。
ANWMは4-DoF UAV軌道で訓練され、物理にインスパイアされたモジュールであるFuture Frame Projection (FFP)を導入している。
このモジュールは、長距離視覚発生における表現の不確かさを軽減し、3次元軌跡と自我中心の観測のマッピングをキャプチャする。
実験により、ANWMは長距離視覚予測において既存の世界を著しく上回り、大規模環境でのUAV航法成功率を向上させることが示された。
関連論文リスト
- FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - CityNavAgent: Aerial Vision-and-Language Navigation with Hierarchical Semantic Planning and Global Memory [39.76840258489023]
航空ビジョン・アンド・ランゲージナビゲーション(VLN)では、ドローンが自然言語の指示を解釈し、複雑な都市環境をナビゲートする必要がある。
都市空域VLNの航法複雑性を著しく低減する大規模言語モデル(LLM)を用いたエージェントである textbfCityNavAgent を提案する。
論文 参考訳(メタデータ) (2025-05-08T20:01:35Z) - An Efficient Occupancy World Model via Decoupled Dynamic Flow and Image-assisted Training [50.71892161377806]
DFIT-OccWorldは、分離されたダイナミックフローとイメージアシストトレーニング戦略を活用する、効率的な3D占有世界モデルである。
提案モデルでは, 静止ボクセルはポーズ変換により容易に得られるのに対し, 既存のボクセルフローを用いて既存の観測を歪曲することで, 将来のダイナミックボクセルを予測できる。
論文 参考訳(メタデータ) (2024-12-18T12:10:33Z) - Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。
慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。
実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文 参考訳(メタデータ) (2024-12-04T18:59:45Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。