Fugu-MT 論文翻訳(概要): An Efficient and Multi-Modal Navigation System with One-Step World Model

論文の概要: An Efficient and Multi-Modal Navigation System with One-Step World Model

arxiv url: http://arxiv.org/abs/2601.12277v1
Date: Sun, 18 Jan 2026 06:29:56 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-23 08:17:40.823039
Title: An Efficient and Multi-Modal Navigation System with One-Step World Model
Title（参考訳）: ワンステップ世界モデルを用いた効率的なマルチモードナビゲーションシステム
Authors: Wangtian Shen, Ziyang Meng, Jinming Ma, Mingliang Zhou, Diyun Xiang,
Abstract要約: 現在のナビゲーションワールドモデルは、多段階拡散プロセスと自動回帰フレーム・バイ・フレーム生成に依存している。本稿では,効率的な空間的注意力を備えたワンステップ生成パラダイムと3次元U-Netバックボーンを提案する。この設計は、推論遅延を大幅に低減し、予測性能を向上しつつ、高周波制御を可能にする。
参考スコア（独自算出の注目度）: 11.582535121562247
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Navigation is a fundamental capability for mobile robots. While the current trend is to use learning-based approaches to replace traditional geometry-based methods, existing end-to-end learning-based policies often struggle with 3D spatial reasoning and lack a comprehensive understanding of physical world dynamics. Integrating world models-which predict future observations conditioned on given actions-with iterative optimization planning offers a promising solution due to their capacity for imagination and flexibility. However, current navigation world models, typically built on pure transformer architectures, often rely on multi-step diffusion processes and autoregressive frame-by-frame generation. These mechanisms result in prohibitive computational latency, rendering real-time deployment impossible. To address this bottleneck, we propose a lightweight navigation world model that adopts a one-step generation paradigm and a 3D U-Net backbone equipped with efficient spatial-temporal attention. This design drastically reduces inference latency, enabling high-frequency control while achieving superior predictive performance. We also integrate this model into an optimization-based planning framework utilizing anchor-based initialization to handle multi-modal goal navigation tasks. Extensive closed-loop experiments in both simulation and real-world environments demonstrate our system's superior efficiency and robustness compared to state-of-the-art baselines.
Abstract（参考訳）: ナビゲーションは移動ロボットの基本機能である。現在の傾向は、従来の幾何学に基づく手法を置き換えるために学習ベースのアプローチを使うことであるが、既存のエンドツーエンドの学習ベースのポリシーは、しばしば3次元空間的推論に苦慮し、物理世界のダイナミクスに関する包括的な理解が欠如している。与えられた行動に条件付けされた将来の観測を予測する世界モデルの統合 - 反復的な最適化計画 – は、想像力と柔軟性の能力のために、有望なソリューションを提供する。しかしながら、現在のナビゲーションワールドモデルは、一般的に純粋なトランスフォーマーアーキテクチャに基づいて構築されており、多段階拡散プロセスと自動回帰フレーム・バイ・フレーム生成に依存していることが多い。これらのメカニズムは計算遅延を禁止し、リアルタイムデプロイメントを不可能にする。このボトルネックに対処するため,一段階生成パラダイムと空間的注意を効率よく備えた3次元U-Netバックボーンを備えた軽量ナビゲーションワールドモデルを提案する。この設計は、推論遅延を大幅に低減し、予測性能を向上しつつ、高周波制御を可能にする。また、このモデルをアンカーベースの初期化を利用して最適化ベースの計画フレームワークに統合し、マルチモーダルゴールナビゲーションタスクを処理する。シミュレーションと実世界の環境の両方における大規模なクローズループ実験は、最先端のベースラインと比較して、システムの効率性とロバスト性が優れていることを実証している。

関連論文リスト

History-Conditioned Spatio-Temporal Visual Token Pruning for Efficient Vision-Language Navigation [18.716145266309802]
Vision-Language Navigation (LNV)は、ロボットが視覚的に接地された環境で自然言語の指示に従うことを可能にする。近年のVision-Language-Action-Modelでは,ナビゲーション性能は高いが,リアルタイムデプロイメントを制限している計算遅延は大きい。 VLNベースのVLNに適した学習自由な視覚言語フレームワークを提案する。
論文参考訳（メタデータ） (2026-03-06T17:03:16Z)
GIANT - Global Path Integration and Attentive Graph Networks for Multi-Agent Trajectory Planning [4.019914376054815]
本稿では,グローバルパス計画とローカルナビゲーション戦略を統合したマルチロボット衝突回避手法を提案する。本研究では,事前に計画されたグローバルパスを活用するローカルナビゲーションモデルを導入し,ロボットが最適な経路に順応し,環境変化に動的に適応できるようにする。提案手法は, NH-ORCA, DRL-NAV, GA3C-CADRLなどの既設ベースラインに対して, 多様なシミュレーションシナリオに対して評価を行った。
論文参考訳（メタデータ） (2026-03-04T22:45:53Z)
Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。 Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文参考訳（メタデータ） (2025-10-27T03:52:45Z)
World Model-Based Learning for Long-Term Age of Information Minimization in Vehicular Networks [53.98633183204453]
本稿では,車載ネットワークにおけるパケット完全性認識情報(CAoI)の年齢を最小化するために,新しい世界モデルに基づく学習フレームワークを提案する。 mmWave V2X環境の動的モデルを共同で学習し、リンクスケジューリングの方法を学ぶための軌跡を想像するために使用する世界モデルフレームワークを提案する。特に、長期的な政策は環境相互作用の代わりに、異なる想像軌道で学習される。
論文参考訳（メタデータ） (2025-05-03T06:23:18Z)
EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文参考訳（メタデータ） (2025-02-01T15:49:59Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
Generalizable Spacecraft Trajectory Generation via Multimodal Learning with Transformers [14.176630393074149]
本稿では,様々な問題構成にまたがって一般化する新しいトラジェクトリ生成フレームワークを提案する。我々は、データソースから学習できる高容量トランスフォーマーニューラルネットワークを活用している。このフレームワークはフリーフライアプラットフォームでのシミュレーションと実験を通じて検証されている。
論文参考訳（メタデータ） (2024-10-15T15:55:42Z)
Physics-Inspired Temporal Learning of Quadrotor Dynamics for Accurate Model Predictive Trajectory Tracking [76.27433308688592]
クオーロタのシステムダイナミクスを正確にモデル化することは、アジャイル、安全、安定したナビゲーションを保証する上で非常に重要です。本稿では,ロボットの経験から,四重項系の力学を純粋に学習するための新しい物理インスパイアされた時間畳み込みネットワーク(PI-TCN)を提案する。提案手法は,スパース時間的畳み込みと高密度フィードフォワード接続の表現力を組み合わせて,正確なシステム予測を行う。
論文参考訳（メタデータ） (2022-06-07T13:51:35Z)
Tracking and Planning with Spatial World Models [17.698319441265223]
本研究では,異なる世界モデルを用いたリアルタイムナビゲーションとトラッキング手法を提案する。画像と深度観測のみを用いて15Hzの周波数で最大92%の航法成功率を実現した。
論文参考訳（メタデータ） (2022-01-25T14:16:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。