論文の概要: Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion
- arxiv url: http://arxiv.org/abs/2311.01017v3
- Date: Tue, 16 Jan 2024 18:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:12:55.773469
- Title: Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion
- Title(参考訳): 離散拡散による自律運転のための教師なし世界モデル学習
- Authors: Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel
Urtasun
- Abstract要約: センサ観測をVQVAEでトークン化する新しい世界モデリング手法を提案する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
- 参考スコア(独自算出の注目度): 38.48682990918926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning world models can teach an agent how the world works in an
unsupervised manner. Even though it can be viewed as a special case of sequence
modeling, progress for scaling world models on robotic applications such as
autonomous driving has been somewhat less rapid than scaling language models
with Generative Pre-trained Transformers (GPT). We identify two reasons as
major bottlenecks: dealing with complex and unstructured observation space, and
having a scalable generative model. Consequently, we propose a novel world
modeling approach that first tokenizes sensor observations with VQVAE, then
predicts the future via discrete diffusion. To efficiently decode and denoise
tokens in parallel, we recast Masked Generative Image Transformer into the
discrete diffusion framework with a few simple changes, resulting in notable
improvement. When applied to learning world models on point cloud observations,
our model reduces prior SOTA Chamfer distance by more than 65% for 1s
prediction, and more than 50% for 3s prediction, across NuScenes, KITTI
Odometry, and Argoverse2 datasets. Our results demonstrate that discrete
diffusion on tokenized agent experience can unlock the power of GPT-like
unsupervised learning for robotic agents.
- Abstract(参考訳): 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。
シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。
複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。
そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。
トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。
点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。
関連論文リスト
- Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。
エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。
クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文 参考訳(メタデータ) (2024-09-25T06:48:25Z) - Promises and Pitfalls of Generative Masked Language Modeling: Theoretical Framework and Practical Guidelines [74.42485647685272]
GMLM(Generative Masked Language Models)に焦点を当てる。
我々は,マルコフ連鎖の入力として使用されるマスキングにより,データ分布の条件付き確率に適合するモデルを訓練し,モデルからサンプルを抽出する。
我々は,T5モデルを並列デコーディングに適応させ,最小品質の犠牲を伴って機械翻訳における2~3倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-07-22T18:00:00Z) - Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-06-13T02:03:22Z) - DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。
我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。
DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文 参考訳(メタデータ) (2024-05-07T15:14:20Z) - Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。
本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。
実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文 参考訳(メタデータ) (2024-05-06T06:23:06Z) - Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Harnessing expressive capacity of Machine Learning modeling to represent
complex coupling of Earth's auroral space weather regimes [0.0]
我々は,大域オーロラ粒子降水量の予測を推し進める複数の深層学習(DL)モデルを開発した。
我々は、地球を周回する低軌道の電子エネルギーフラックスから観測を行い、地球上の流星を改良するモデルを開発した。
特に、MLモデルは、歴史的に正確な仕様まで、極端な事象の予測を改善し、MLイノベーションによって提供される能力の増大が、宇宙天気の科学における大きな課題に対処できることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T22:35:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。