Fugu-MT 論文翻訳(概要): WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

論文の概要: WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation

arxiv url: http://arxiv.org/abs/2606.04907v1
Date: Wed, 03 Jun 2026 14:05:19 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-04 20:44:18.804742
Title: WAM-Nav: Asymmetric Latent World-Action Modeling for Unified Visual Navigation
Title（参考訳）: WAM-Nav:Unified Visual Navigationのための非対称ラテントワールドアクションモデリング
Authors: Ning Yang, Yan Huang, Kaiwen Peng, Ziheng He, Kai Wang, Cui Miao, Kailin Lyu, Guo Li, Xiaofeng Wang, Zheng Zhu, Jing Liu, Nianfeng Liu,
Abstract要約: 視覚ナビゲーションは、複雑な幾何学的および物理的制約の下で滑らかで衝突のない軌道を生成する必要がある。 WAM-Navは,視覚ナビゲーションを具体化した潜在世界行動モデルであり,行動生成と潜時視予知を共同で学習する。
参考スコア（独自算出の注目度）: 31.539730066120374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Visual navigation requires generating smooth and collision-free trajectories under complex geometric and physical constraints. Existing reactive policies that directly map observations to actions lack anticipatory reasoning, limiting their ability to proactively avoid obstacles. While visual imagination offers predictive foresight, conventional modular approaches separate scene prediction from policy learning, often leading to error accumulation and inefficient inference. To address these limitations, we propose WAM-Nav, a Latent World-Action Model for embodied visual navigation that jointly learns action generation and latent visual foresight, enabling more robust and foresighted navigation decisions without compromising inference efficiency. Specifically, WAM-Nav utilizes a shared Diffusion Transformer for asymmetric joint diffusion to concurrently generate long-horizon actions and short-horizon visual foresight, reducing the inference latency and visual error accumulation inherent in multi-step autoregressive rollouts. To further encourage smooth and consistent trajectory generation, we introduce a dual-stream contextual conditioning mechanism that integrates episode-level ego-motion history with sequential visual observations. Combined with a unified goal alignment module that preserves balanced representations across goal types, WAM-Nav naturally supports Image-Goal, Point-Goal, and No-Goal exploration within a single policy. Extensive experiments on the challenging ClutterScenes and InternScenes benchmarks demonstrate strong generalization of WAM-Nav, particularly on Image-Goal and Point-Goal navigation, where it improves success rates by 15.7% and 3.3%, respectively. Real-world deployment further validates effective zero-shot sim-to-real transfer, achieving an average 85% task success rate across diverse indoor and outdoor environments.
Abstract（参考訳）: 視覚ナビゲーションは、複雑な幾何学的および物理的制約の下で滑らかで衝突のない軌道を生成する必要がある。観察を直接行動にマッピングする既存の反応ポリシーでは、予測推論が欠如しており、障害を積極的に回避する能力が制限されている。視覚的想像力は予測予測を提供するが、従来のモジュラーアプローチは、シーン予測とポリシー学習を区別し、しばしばエラーの蓄積と非効率な推論につながる。これらの制約に対処するため、我々は、アクション生成と潜時視認性を共同で学習し、推論効率を損なうことなく、より堅牢で先見的なナビゲーション決定を可能にする、潜在的視覚ナビゲーションのための潜在的世界行動モデルであるWAM-Navを提案する。特に、WAM-Navは共有拡散変換器を用いて非対称な連成拡散を行い、長水平動作と短水平視差を同時に生成し、多段自動回帰ロールアウトに固有の推論遅延と視覚的エラーの蓄積を低減する。よりスムーズで一貫した軌道生成を促進するために、エピソードレベルのエゴモーション履歴と逐次的な視覚的観察を統合する2重ストリームコンテクストコンディショニング機構を導入する。 WAM-Navは、ゴールタイプ間のバランスの取れた表現を保存する統一されたゴールアライメントモジュールと組み合わせて、イメージゴール、ポイントゴール、ノーゴール探索を1つのポリシーで自然にサポートする。 ClutterScenes と InternScenes のベンチマークに関する大規模な実験は、WAM-Nav の強力な一般化、特に Image-Goal と Point-Goal ナビゲーションにおいて、成功率を 15.7% と 3.3% に向上させることを示した。実世界の展開は、効果的なゼロショット・シム・トゥ・リアル・トランスファーを検証し、様々な屋内および屋外環境において平均85%のタスク成功率を達成する。

関連論文リスト

LatentPilot: Scene-Aware Vision-and-Language Navigation by Dreaming Ahead with Latent Visual Reasoning [51.969318585152116]
LatentPilotは、トレーニング中の将来の観察を貴重なデータソースとして利用して、アクション条件付きビジュアルダイナミクスを学習する。そこで本稿では,フライホイール方式のトレーニング機構を提案する。これは,道路上の軌道を反復的に収集し,エージェントの行動分布に適合するようにモデルを再訓練する。 R2R-CE、RxR-CE、R2R-PEベンチマークの実験では新たなSOTA結果が得られた。
論文参考訳（メタデータ） (2026-03-31T02:21:59Z)
\textsc{NaVIDA}: Vision-Language Navigation with Inverse Dynamics Augmentation [50.027425808733994]
textscNaVIDAは、ポリシー学習とアクショングラウンドの視覚力学と適応実行を結合した統合VLNフレームワークである。 textscNaVIDAは、チャンクベースの逆ダイナミクスによるトレーニングを強化し、視覚変化と対応するアクションの因果関係を学習する。実験の結果,textscNaVIDAはパラメータが少ない最先端の手法に比べてナビゲーション性能が優れていることがわかった。
論文参考訳（メタデータ） (2026-01-26T06:16:17Z)
VLingNav: Embodied Navigation with Adaptive Reasoning and Visual-Assisted Linguistic Memory [43.2995099083993]
VLAモデルは、認識と計画を統合することで、航法を具現化する有望な可能性を示してきた。既存のVLAモデルは、観察から行動へのリアクティブマッピングに直接依存している。 VLingNav(VLAモデル)を提案する。
論文参考訳（メタデータ） (2026-01-13T15:43:43Z)
AstraNav-World: World Model for Foresight Control and Consistency [40.07910402326578]
ダイナミックな環境での身体的ナビゲーションは、世界がどのように進化し、どのように行動が時間とともに広がるかを正確に予測する必要がある。 AstraNav-Worldは、未来の視覚状態とアクションシーケンスを共同で推論するエンド・ツー・エンドの世界モデルである。本フレームワークは,拡散型ビデオジェネレータとビジョン言語ポリシーを統合し,同期ロールアウトを実現する。
論文参考訳（メタデータ） (2025-12-25T15:31:24Z)
Aerial Vision-Language Navigation with a Unified Framework for Spatial, Temporal and Embodied Reasoning [5.517595398768408]
本稿では,エゴ単分子RGB観測と自然言語命令のみで動作する航空VLNフレームワークを提案する。このタスクは、低高度検査、サーチ・アンド・レスキュー、自律型空中輸送といった現実世界のアプリケーションに対して約束される。
論文参考訳（メタデータ） (2025-12-09T14:25:24Z)
Unified World Models: Memory-Augmented Planning and Foresight for Visual Navigation [69.94565127141483]
現在のアプローチでは、ナビゲーション計画とビジュアルワールドモデリングが分離されており、状態-アクションのミスアライメントと適応性の制限につながっている。一つのマルチモーダル自己回帰バックボーン内に、自我中心の視線と計画を統合する統一されたメモリ拡張世界モデルUniWMを提案する。我々は,UniWMが航法成功率を最大30%向上し,トラジェクトリエラーを強いベースラインと比較して著しく低減し,未確認のTartanDriveデータセットに印象的なゼロショット一般化を示すことを示した。
論文参考訳（メタデータ） (2025-10-09T18:18:11Z)
From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。 S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文参考訳（メタデータ） (2025-07-29T17:26:10Z)
RSRNav: Reasoning Spatial Relationship for Image-Goal Navigation [57.197881161006904]
近年のイメージゴールナビゲーション(ImageNav)手法は,目標と自我中心の画像の意味的特徴を別々に捉え,知覚行動ポリシーを学習している。本稿では,目標と現在の観測値の空間的関係をナビゲーションガイダンスとして考慮する,シンプルで効果的な手法であるRSRNavを提案する。
論文参考訳（メタデータ） (2025-04-25T00:22:17Z)
Ground-level Viewpoint Vision-and-Language Navigation in Continuous Environments [10.953629652228024]
VLN(Vision-and-Language Navigation)エージェントは、時系列の視覚観察とそれに対応する指示を関連付け、意思決定を行う。本稿では,人間中心の指示と低地視野の四足歩行ロボットとのミスマッチに対処する。この問題を軽減するために,地上レベルの視点ナビゲーション(GVNav)手法を提案する。
論文参考訳（メタデータ） (2025-02-26T10:30:40Z)
Navigation World Models [68.58459393846461]
本稿では,過去の観測とナビゲーション行動に基づいて,将来の視覚観測を予測できる制御可能な映像生成モデルを提案する。慣れ親しんだ環境では、NWMはナビゲーションの軌道をシミュレートし、目的を達成するかどうかを評価することで計画することができる。実験は、スクラッチからの軌道計画や、外部ポリシーからサンプリングされた軌道のランク付けにおいて、その効果を実証する。
論文参考訳（メタデータ） (2024-12-04T18:59:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。