論文の概要: World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observations
- arxiv url: http://arxiv.org/abs/2512.03429v1
- Date: Wed, 03 Dec 2025 04:15:31 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:01:26.508137
- Title: World Models for Autonomous Navigation of Terrestrial Robots from LIDAR Observations
- Title(参考訳): LIDAR観測による地上ロボットの自律走行のための世界モデル
- Authors: Raul Steinmetz, Fabio Demo Rosa, Victor Augusto Kich, Jair Augusto Bottega, Ricardo Bedin Grando, Daniel Fernando Tello Gamarra,
- Abstract要約: 本稿では,DreamerV3アルゴリズム上に構築された新しいモデルベースRLフレームワークを提案する。
MLP-VAE(Multi-Layer Perceptron Variational Autoencoder)を世界モデルに統合し、高次元LIDAR読み出しをコンパクトな潜在表現に符号化する。
シミュレーションされたTurtleBot3ナビゲーションタスクの実験は、提案アーキテクチャがより高速な収束とより高い成功率を達成することを示す。
- 参考スコア(独自算出の注目度): 0.7239024032079358
- License:
- Abstract: Autonomous navigation of terrestrial robots using Reinforcement Learning (RL) from LIDAR observations remains challenging due to the high dimensionality of sensor data and the sample inefficiency of model-free approaches. Conventional policy networks struggle to process full-resolution LIDAR inputs, forcing prior works to rely on simplified observations that reduce spatial awareness and navigation robustness. This paper presents a novel model-based RL framework built on top of the DreamerV3 algorithm, integrating a Multi-Layer Perceptron Variational Autoencoder (MLP-VAE) within a world model to encode high-dimensional LIDAR readings into compact latent representations. These latent features, combined with a learned dynamics predictor, enable efficient imagination-based policy optimization. Experiments on simulated TurtleBot3 navigation tasks demonstrate that the proposed architecture achieves faster convergence and higher success rate compared to model-free baselines such as SAC, DDPG, and TD3. It is worth emphasizing that the DreamerV3-based agent attains a 100% success rate across all evaluated environments when using the full dataset of the Turtlebot3 LIDAR (360 readings), while model-free methods plateaued below 85%. These findings demonstrate that integrating predictive world models with learned latent representations enables more efficient and robust navigation from high-dimensional sensory data.
- Abstract(参考訳): LIDAR観測からReinforcement Learning (RL) を用いた地上ロボットの自律航法は、センサーデータの高次元性とモデルフリーアプローチのサンプル非効率のため、依然として困難である。
従来の政策ネットワークは、全解像度のLIDAR入力を処理するのに苦労し、事前の作業は、空間的認識とナビゲーションの堅牢性を減らすため、簡易な観測に頼ることを余儀なくされた。
本稿では,Multi-Layer Perceptron Variational Autoencoder(MLP-VAE)を世界モデルに組み込んだ,DreamerV3アルゴリズム上に構築された新しいモデルベースRLフレームワークを提案する。
これらの潜在機能は、学習された動的予測器と組み合わせて、効率的な想像力に基づくポリシー最適化を可能にする。
シミュレーションしたTurtleBot3ナビゲーションタスクの実験では,SAC,DDPG,TD3などのモデルフリーベースラインと比較して,提案アーキテクチャがより高速に収束し,高い成功率を達成することが示された。
DreamerV3をベースとしたエージェントは、Turtlebot3 LIDARの完全なデータセット(360読)を使用する場合、評価されたすべての環境に対して100%の成功率を達成する一方で、モデルフリーメソッドは85%以下である、と強調する価値がある。
これらの結果は、学習した潜在表現と予測的世界モデルを統合することで、高次元の知覚データからより効率的でロバストなナビゲーションが可能になることを示している。
関連論文リスト
- Scaling Up Occupancy-centric Driving Scene Generation: Dataset and Method [54.461213497603154]
作業中心の手法は、最近、フレームとモダリティをまたいだ一貫した条件付けを提供することで、最先端の結果を得た。
Nuplan-Occは、広く使われているNuplanベンチマークから構築された、これまでで最大の占有率データセットである。
高品質な占有、多視点ビデオ、LiDAR点雲を共同で合成する統合フレームワークを開発した。
論文 参考訳(メタデータ) (2025-10-27T03:52:45Z) - Deep Learning-Based Multi-Modal Fusion for Robust Robot Perception and Navigation [1.71849622776539]
本稿では,自律ナビゲーションロボットの知覚能力向上を目的とした,ディープラーニングに基づくマルチモーダル融合アーキテクチャを提案する。
革新的な特徴抽出モジュール、適応融合戦略、時系列モデリング機構を利用して、RGB画像とLiDARデータを効果的に統合する。
論文 参考訳(メタデータ) (2025-04-26T19:04:21Z) - Bridging Simulation and Reality: A 3D Clustering-Based Deep Learning Model for UAV-Based RF Source Localization [0.0]
無人航空機(UAV)は、地上法よりもRFソースの局所化に大きな利点をもたらす。
近年のディープラーニング(DL)の進歩は,特に屋外シナリオにおいて,局所化の精度をさらに高めた。
本稿では、3Dクラスタリングに基づく特徴抽出をロバストなローカライゼーションに活用するDLベースの3DクラスタベースRealAdaptRNetを提案する。
論文 参考訳(メタデータ) (2025-02-02T05:48:44Z) - A Practical Approach to Underwater Depth and Surface Normals Estimation [3.0516727053033392]
本稿では,単眼深度と表面正規化推定(MDSNE)のための新しいディープラーニングモデルを提案する。
これは特に、CNNとTransformerを統合するハイブリッドアーキテクチャを使用して、水中環境向けに調整されている。
我々のモデルはパラメータを90%削減し、トレーニングコストを80%削減し、リソース制約されたデバイス上でリアルタイムな3D認識を可能にする。
論文 参考訳(メタデータ) (2024-10-02T22:41:12Z) - Unleashing the Potential of Mamba: Boosting a LiDAR 3D Sparse Detector by Using Cross-Model Knowledge Distillation [22.653014803666668]
FASDと呼ばれる高速LiDAR3Dオブジェクト検出フレームワークを提案する。
高速シーケンスモデリングのための変換器のキャパシティをFLOPの低いMambaモデルに蒸留し,知識伝達による精度の向上を実現することを目的とする。
我々は,データセットとnuScenesのフレームワークを評価し,リソース消費の4倍の削減と,現在のSoTA手法よりも1-2%の性能向上を実現した。
論文 参考訳(メタデータ) (2024-09-17T09:30:43Z) - 4D Contrastive Superflows are Dense 3D Representation Learners [62.433137130087445]
我々は,LiDARとカメラのペアを連続的に利用して事前学習の目的を確立するための,新しいフレームワークであるSuperFlowを紹介する。
学習効率をさらに向上するため,カメラビューから抽出した知識の整合性を高めるプラグイン・アンド・プレイ・ビュー・一貫性モジュールを組み込んだ。
論文 参考訳(メタデータ) (2024-07-08T17:59:54Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。