論文の概要: Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving
- arxiv url: http://arxiv.org/abs/2409.15730v1
- Date: Tue, 24 Sep 2024 04:26:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-26 09:01:07.462430
- Title: Learning Multiple Probabilistic Decisions from Latent World Model in Autonomous Driving
- Title(参考訳): 自律運転における潜在世界モデルからの複数確率決定の学習
- Authors: Lingyu Xiao, Jiang-Jiang Liu, Sen Yang, Xiaofan Li, Xiaoqing Ye, Wankou Yang, Jingdong Wang,
- Abstract要約: 自己回帰世界モデルは、堅牢な一般化能力を示すが、不確実性モデリングや自己導出が不十分なため、行動の導出に困難に直面する。
本研究では,環境の次状態とエゴ車両の動作を混合分布としてモデル化するフレームワークであるLatentDriverを提案する。
LatentDriverは最先端の強化学習と模倣学習を超越し、エキスパートレベルのパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 40.4491758280365
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The autoregressive world model exhibits robust generalization capabilities in vectorized scene understanding but encounters difficulties in deriving actions due to insufficient uncertainty modeling and self-delusion. In this paper, we explore the feasibility of deriving decisions from an autoregressive world model by addressing these challenges through the formulation of multiple probabilistic hypotheses. We propose LatentDriver, a framework models the environment's next states and the ego vehicle's possible actions as a mixture distribution, from which a deterministic control signal is then derived. By incorporating mixture modeling, the stochastic nature of decisionmaking is captured. Additionally, the self-delusion problem is mitigated by providing intermediate actions sampled from a distribution to the world model. Experimental results on the recently released close-loop benchmark Waymax demonstrate that LatentDriver surpasses state-of-the-art reinforcement learning and imitation learning methods, achieving expert-level performance. The code and models will be made available at https://github.com/Sephirex-X/LatentDriver.
- Abstract(参考訳): 自己回帰世界モデルは、ベクトル化されたシーン理解において堅牢な一般化能力を示すが、不確実性モデリングや自己認識が不十分なため、行動の導出に困難に遭遇する。
本稿では,複数の確率論的仮説を定式化することにより,自己回帰的世界モデルから決定を導出する可能性を検討する。
本研究では,環境の次状態とエゴ車の動作を混合分布としてモデル化するフレームワークであるLatentDriverを提案し,そこから決定論的制御信号を導出する。
混合モデリングを取り入れることで、意思決定の確率的性質を捉える。
さらに、分布からサンプリングされた中間動作を世界モデルに提供することにより、自己聴取問題を緩和する。
最近リリースされたクローズループベンチマークであるWaymaxの実験結果によると、LatentDriverは最先端の強化学習と模倣学習メソッドを超え、専門家レベルのパフォーマンスを実現している。
コードとモデルはhttps://github.com/Sephirex-X/LatentDriver.comで公開される。
関連論文リスト
- WHALE: Towards Generalizable and Scalable World Models for Embodied Decision-making [40.53824201182517]
本稿では、一般化可能な世界モデルを学ぶためのフレームワークであるWHALEを紹介する。
Whale-STは、拡張一般化性を備えた時空間変圧器を用いたスケーラブルな世界モデルである。
また、Open X-Embodimentデータセットから970K軌道上でトレーニングされた414MパラメータワールドモデルであるWhale-Xを提案する。
論文 参考訳(メタデータ) (2024-11-08T15:01:27Z) - Modeling Boundedly Rational Agents with Latent Inference Budgets [56.24971011281947]
エージェントの計算制約を明示的にモデル化する潜在推論予算モデル(L-IBM)を導入する。
L-IBMは、最適なアクターの多様な集団のデータを使ってエージェントモデルを学ぶことができる。
我々は,L-IBMが不確実性の下での意思決定のボルツマンモデルに適合しているか,あるいは上回っていることを示す。
論文 参考訳(メタデータ) (2023-12-07T03:55:51Z) - COPlanner: Plan to Roll Out Conservatively but to Explore Optimistically
for Model-Based RL [50.385005413810084]
ダイナスタイルのモデルベース強化学習には、ポリシー学習と実環境探索のためのサンプルを生成するモデルロールアウトという2つのフェーズが含まれる。
$textttCOPlanner$は、不正確な学習された動的モデル問題に対処するモデルベースのメソッドのための計画駆動フレームワークである。
論文 参考訳(メタデータ) (2023-10-11T06:10:07Z) - Model-Based Reinforcement Learning with Isolated Imaginations [61.67183143982074]
モデルに基づく強化学習手法であるIso-Dream++を提案する。
我々は、切り離された潜在的想像力に基づいて政策最適化を行う。
これにより、野生の混合力学源を孤立させることで、長い水平振動子制御タスクの恩恵を受けることができる。
論文 参考訳(メタデータ) (2023-03-27T02:55:56Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z) - Addressing Optimism Bias in Sequence Modeling for Reinforcement Learning [5.09191791549438]
最近の研究は、主に決定論的なオフラインAtariとD4RLベンチマークにおいて、最先端の結果を達成した。
本稿では,この楽観主義バイアスに対処する手法を提案する。
シミュレーションにおいて,様々な自律運転タスクにおいて,提案手法の優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-21T04:12:48Z) - Your Autoregressive Generative Model Can be Better If You Treat It as an
Energy-Based One [83.5162421521224]
本稿では,自己回帰生成モデルの学習のための独自のE-ARM法を提案する。
E-ARMは、よく設計されたエネルギーベースの学習目標を活用する。
我々は、E-ARMを効率的に訓練でき、露光バイアス問題を緩和できることを示した。
論文 参考訳(メタデータ) (2022-06-26T10:58:41Z) - Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。
本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文 参考訳(メタデータ) (2021-10-02T13:55:50Z) - Bootstrapped model learning and error correction for planning with
uncertainty in model-based RL [1.370633147306388]
自然の目的は、環境のダイナミクスを正確に反映したモデルを学ぶことである。
本稿では,不確実性を考慮した強化学習エージェントによるモデルミス特定の問題について検討する。
本稿では,将来の状態と報酬の分布を学習するブートストラップ型マルチヘッドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-15T15:41:21Z) - A Probabilistic Framework for Imitating Human Race Driver Behavior [31.524303667746643]
本稿では,運転行動モデリングのタスクを複数のモジュールに分割するモジュラーフレームワークProMoDを提案する。
確率的運動プリミティブを用いて大域的目標軌道分布を学習し、局所経路生成にウエイドを使用し、ニューラルネットワークにより対応する行動選択を行う。
シミュレーションカーレースセッティングの実験は、他の模倣学習アルゴリズムと比較して、模倣精度とロバスト性にかなりの利点がある。
論文 参考訳(メタデータ) (2020-01-22T20:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。