論文の概要: Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion
- arxiv url: http://arxiv.org/abs/2311.01017v4
- Date: Mon, 1 Apr 2024 15:41:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:42:49.376081
- Title: Copilot4D: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion
- Title(参考訳): Copilot4D:離散拡散による自律運転のための教師なし世界モデル学習
- Authors: Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun,
- Abstract要約: Copilot4Dは、まずVQVAEでセンサ観測をトークン化し、次に離散拡散によって未来を予測する新しい世界モデリング手法である。
本研究は,ロボット工学におけるGPTのような非教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
- 参考スコア(独自算出の注目度): 36.321494200830244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose Copilot4D, a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer as discrete diffusion and enhance it with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, Copilot4D reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotics.
- Abstract(参考訳): 世界のモデルを学ぶことは、エージェントに世界がどのように教師なしの方法で機能するかを教えることができる。
シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。
複雑で非構造的な観測空間を扱うことと、スケーラブルな生成モデルを持つことである。
そこで我々は,まずVQVAEでセンサ観測をトークン化する新しい世界モデリング手法であるCopilot4Dを提案し,その将来を離散拡散により予測する。
トークンを並列に復号・復号化するために,Masked Generative Image Transformerを離散拡散として再放送し,いくつかの簡単な変更を加えて拡張した結果,顕著な改善が得られた。
Copilot4Dは、ポイントクラウド観測の学習の世界モデルに適用すると、1s予測では65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測では50%以上削減される。
本研究は, ロボット工学におけるGPTのような非教師なし学習のパワーを, トークン化エージェント体験における離散拡散により解き放つことを示すものである。
関連論文リスト
- VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Harnessing expressive capacity of Machine Learning modeling to represent
complex coupling of Earth's auroral space weather regimes [0.0]
我々は,大域オーロラ粒子降水量の予測を推し進める複数の深層学習(DL)モデルを開発した。
我々は、地球を周回する低軌道の電子エネルギーフラックスから観測を行い、地球上の流星を改良するモデルを開発した。
特に、MLモデルは、歴史的に正確な仕様まで、極端な事象の予測を改善し、MLイノベーションによって提供される能力の増大が、宇宙天気の科学における大きな課題に対処できることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T22:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。