論文の概要: Versatile Navigation under Partial Observability via Value-guided Diffusion Policy
- arxiv url: http://arxiv.org/abs/2404.02176v1
- Date: Mon, 1 Apr 2024 19:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 21:38:27.824119
- Title: Versatile Navigation under Partial Observability via Value-guided Diffusion Policy
- Title(参考訳): 価値誘導拡散政策による部分可観測性を考慮した垂直航法
- Authors: Gengyu Zhang, Hao Tang, Yan Yan,
- Abstract要約: 部分観測可能条件下での2次元および3次元経路計画のための多目的拡散に基づくアプローチを提案する。
具体的には、価値誘導拡散政策は、まず様々な段階にわたって行動を予測する計画を生成する。
次に、状態推定を伴う微分可能なプランナーを用いて値関数を導出し、エージェントの探索とゴール探索の振る舞いを指示する。
- 参考スコア(独自算出の注目度): 14.967107015417943
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Route planning for navigation under partial observability plays a crucial role in modern robotics and autonomous driving. Existing route planning approaches can be categorized into two main classes: traditional autoregressive and diffusion-based methods. The former often fails due to its myopic nature, while the latter either assumes full observability or struggles to adapt to unfamiliar scenarios, due to strong couplings with behavior cloning from experts. To address these deficiencies, we propose a versatile diffusion-based approach for both 2D and 3D route planning under partial observability. Specifically, our value-guided diffusion policy first generates plans to predict actions across various timesteps, providing ample foresight to the planning. It then employs a differentiable planner with state estimations to derive a value function, directing the agent's exploration and goal-seeking behaviors without seeking experts while explicitly addressing partial observability. During inference, our policy is further enhanced by a best-plan-selection strategy, substantially boosting the planning success rate. Moreover, we propose projecting point clouds, derived from RGB-D inputs, onto 2D grid-based bird-eye-view maps via semantic segmentation, generalizing to 3D environments. This simple yet effective adaption enables zero-shot transfer from 2D-trained policy to 3D, cutting across the laborious training for 3D policy, and thus certifying our versatility. Experimental results demonstrate our superior performance, particularly in navigating situations beyond expert demonstrations, surpassing state-of-the-art autoregressive and diffusion-based baselines for both 2D and 3D scenarios.
- Abstract(参考訳): 部分観測可能性の下での航路計画は、現代ロボット工学と自律運転において重要な役割を担っている。
既存のルートプランニングアプローチは、従来の自己回帰法と拡散法という2つの主要なクラスに分類される。
前者は、その神秘的な性質のためにしばしば失敗するが、後者は、専門家の行動クローンとの強い結合により、完全に観察可能であるか、未知のシナリオに適応するのに苦労する。
これらの欠陥に対処するために,部分観測可能条件下での2次元経路計画と3次元経路計画に多元的拡散に基づくアプローチを提案する。
具体的には、価値誘導拡散政策はまず、様々な段階にわたって行動を予測する計画を生成し、計画に十分な注意を払っている。
次に、状態推定を伴う微分可能なプランナーを使用して、値関数を導出し、エージェントの探索と目標探索を専門家を探すことなく指示し、部分的な可観測性に明示的に対処する。
推測中は、ベストプラン選択戦略により政策がさらに強化され、計画成功率が大幅に向上する。
さらに,RGB-D入力から導かれる点雲を,セマンティックセグメンテーションによる2次元グリッドベースの鳥眼ビューマップに投影し,3次元環境に一般化する。
このシンプルで効果的な適応は、2Dトレーニングされたポリシーから3Dへのゼロショット転送を可能にし、3Dポリシーの厳格なトレーニングを切断し、我々の汎用性を証明します。
実験の結果,特に専門家による実演以上の状況において,2次元シナリオと3次元シナリオの両方において,最先端の自己回帰的,拡散的ベースラインを超越した優れた性能を示した。
関連論文リスト
- Semi-supervised 3D Semantic Scene Completion with 2D Vision Foundation Model Guidance [11.090775523892074]
我々は、高密度な注釈付きデータへの依存を軽減するために、新しい半教師付きフレームワークを導入する。
提案手法は2次元基礎モデルを用いて3次元シーンの幾何学的・意味的手がかりを生成する。
本手法は,10%のラベル付きデータを用いて全教師付き性能の最大85%を達成する。
論文 参考訳(メタデータ) (2024-08-21T12:13:18Z) - StreamMOTP: Streaming and Unified Framework for Joint 3D Multi-Object Tracking and Trajectory Prediction [22.29257945966914]
我々は3次元多目的追跡・軌道予測(StreamMOTP)のためのストリーミング統合フレームワークを提案する。
ストリーミング方式でモデルを構築し、メモリバンクを利用して、追跡対象の長期潜伏機能をより効果的に保存し、活用する。
また,予測トラジェクタの品質と一貫性を2ストリーム予測器で改善する。
論文 参考訳(メタデータ) (2024-06-28T11:35:35Z) - RadOcc: Learning Cross-Modality Occupancy Knowledge through Rendering
Assisted Distillation [50.35403070279804]
マルチビュー画像を用いた3次元シーンの占有状況とセマンティクスを推定することを目的とした,新たな課題である3D占有予測手法を提案する。
本稿では,RandOccを提案する。Rendering Assisted distillation paradigm for 3D Occupancy prediction。
論文 参考訳(メタデータ) (2023-12-19T03:39:56Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - ST-P3: End-to-end Vision-based Autonomous Driving via Spatial-Temporal
Feature Learning [132.20119288212376]
本稿では,認識,予測,計画タスクを同時に行うための,より代表的な特徴の集合に対する時空間的特徴学習手法を提案する。
私たちの知識を最大限に活用するために、私たちは、解釈可能なエンドツーエンドの自動運転システムの各部分を体系的に調査した最初の人です。
論文 参考訳(メタデータ) (2022-07-15T16:57:43Z) - Uncertainty-Aware Adaptation for Self-Supervised 3D Human Pose
Estimation [70.32536356351706]
本稿では、2つの出力ヘッドを2つの異なる構成にサブスクライブする共通のディープネットワークバックボーンを構成するMPP-Netを紹介する。
ポーズと関節のレベルで予測の不確実性を定量化するための適切な尺度を導出する。
本稿では,提案手法の総合評価を行い,ベンチマークデータセット上での最先端性能を示す。
論文 参考訳(メタデータ) (2022-03-29T07:14:58Z) - Uncertainty-driven Planner for Exploration and Navigation [36.933903274373336]
未確認環境における探索とポイントゴールナビゲーションの問題点を考察する。
本論では,屋内マップよりも先進的な学習が,これらの問題に対処する上で大きなメリットをもたらすと論じている。
本稿では、まず、エージェントの視野を超えた占有マップを生成することを学習する新しい計画フレームワークを提案する。
論文 参考訳(メタデータ) (2022-02-24T05:25:31Z) - Unsupervised Cross-Modal Alignment for Multi-Person 3D Pose Estimation [52.94078950641959]
マルチパーソン・ヒューマン・ポーズ推定のためのデプロイフレンドリーで高速なボトムアップ・フレームワークを提案する。
我々は,人物の位置を対応する3Dポーズ表現と統一する,多人数の3Dポーズのニューラル表現を採用する。
ペア化された2Dまたは3Dポーズアノテーションが利用できない実用的な配置パラダイムを提案する。
論文 参考訳(メタデータ) (2020-08-04T07:54:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。