論文の概要: Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion
- arxiv url: http://arxiv.org/abs/2311.01017v3
- Date: Tue, 16 Jan 2024 18:02:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 20:12:55.773469
- Title: Learning Unsupervised World Models for Autonomous Driving via Discrete
Diffusion
- Title(参考訳): 離散拡散による自律運転のための教師なし世界モデル学習
- Authors: Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel
Urtasun
- Abstract要約: センサ観測をVQVAEでトークン化する新しい世界モデリング手法を提案する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
- 参考スコア(独自算出の注目度): 38.48682990918926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning world models can teach an agent how the world works in an
unsupervised manner. Even though it can be viewed as a special case of sequence
modeling, progress for scaling world models on robotic applications such as
autonomous driving has been somewhat less rapid than scaling language models
with Generative Pre-trained Transformers (GPT). We identify two reasons as
major bottlenecks: dealing with complex and unstructured observation space, and
having a scalable generative model. Consequently, we propose a novel world
modeling approach that first tokenizes sensor observations with VQVAE, then
predicts the future via discrete diffusion. To efficiently decode and denoise
tokens in parallel, we recast Masked Generative Image Transformer into the
discrete diffusion framework with a few simple changes, resulting in notable
improvement. When applied to learning world models on point cloud observations,
our model reduces prior SOTA Chamfer distance by more than 65% for 1s
prediction, and more than 50% for 3s prediction, across NuScenes, KITTI
Odometry, and Argoverse2 datasets. Our results demonstrate that discrete
diffusion on tokenized agent experience can unlock the power of GPT-like
unsupervised learning for robotic agents.
- Abstract(参考訳): 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。
シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。
複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。
そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。
トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。
点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。
本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。
関連論文リスト
- Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。
われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。
われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文 参考訳(メタデータ) (2024-02-29T18:57:37Z) - Self-Play Fine-Tuning of Diffusion Models for Text-to-Image Generation [59.184980778643464]
ファインチューニング拡散モデル : 生成人工知能(GenAI)の最前線
本稿では,拡散モデル(SPIN-Diffusion)のための自己演奏ファインチューニングという革新的な手法を紹介する。
提案手法は従来の教師付き微調整とRL戦略の代替として,モデル性能とアライメントの両方を大幅に改善する。
論文 参考訳(メタデータ) (2024-02-15T18:59:18Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Pave the Way to Grasp Anything: Transferring Foundation Models for
Universal Pick-Place Robots [50.73735524550534]
そこで本稿では,最先端基礎モデルによって生成された言語基底セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
マスクから伝達される正確なセマンティクスとジオメトリを多視点ポリシーモデルに統合することにより、正確なオブジェクトのポーズを認識し、サンプル効率のよい学習を可能にする。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。
従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文 参考訳(メタデータ) (2023-01-12T02:07:26Z) - Fitting a Directional Microstructure Model to Diffusion-Relaxation MRI
Data with Self-Supervised Machine Learning [2.8167227950959206]
教師付き学習の魅力的な代替手段として、自己教師型機械学習が登場している。
本稿では,指向性マイクロ構造モデルに適用可能な自己教師型機械学習モデルを実証する。
提案手法は, パラメータ推定と計算時間において, 通常の非線形最小二乗整合と比較して明らかに改善されている。
論文 参考訳(メタデータ) (2022-10-05T15:51:39Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Harnessing expressive capacity of Machine Learning modeling to represent
complex coupling of Earth's auroral space weather regimes [0.0]
我々は,大域オーロラ粒子降水量の予測を推し進める複数の深層学習(DL)モデルを開発した。
我々は、地球を周回する低軌道の電子エネルギーフラックスから観測を行い、地球上の流星を改良するモデルを開発した。
特に、MLモデルは、歴史的に正確な仕様まで、極端な事象の予測を改善し、MLイノベーションによって提供される能力の増大が、宇宙天気の科学における大きな課題に対処できることを示唆している。
論文 参考訳(メタデータ) (2021-11-29T22:35:09Z) - Prediction-Centric Learning of Independent Cascade Dynamics from Partial
Observations [13.680949377743392]
本稿では,このモデルから生成された予測が正確であるような拡散モデルの学習の問題に対処する。
本稿では,スケーラブルな動的メッセージパッシング手法に基づく計算効率のよいアルゴリズムを提案する。
学習モデルからの抽出可能な推論は,元のモデルと比較して限界確率の予測精度がよいことを示す。
論文 参考訳(メタデータ) (2020-07-13T17:58:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。