Fugu-MT 論文翻訳(概要): Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion

論文の概要: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion

arxiv url: http://arxiv.org/abs/2311.01017v3
Date: Tue, 16 Jan 2024 18:02:27 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-18 20:12:55.773469
Title: Learning Unsupervised World Models for Autonomous Driving via Discrete Diffusion
Title（参考訳）: 離散拡散による自律運転のための教師なし世界モデル学習
Authors: Lunjun Zhang, Yuwen Xiong, Ze Yang, Sergio Casas, Rui Hu, Raquel Urtasun
Abstract要約: センサ観測をVQVAEでトークン化する新しい世界モデリング手法を提案する。本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを,トークン化エージェント体験における離散拡散によって解き放つことを示す。
参考スコア（独自算出の注目度）: 38.48682990918926
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Learning world models can teach an agent how the world works in an unsupervised manner. Even though it can be viewed as a special case of sequence modeling, progress for scaling world models on robotic applications such as autonomous driving has been somewhat less rapid than scaling language models with Generative Pre-trained Transformers (GPT). We identify two reasons as major bottlenecks: dealing with complex and unstructured observation space, and having a scalable generative model. Consequently, we propose a novel world modeling approach that first tokenizes sensor observations with VQVAE, then predicts the future via discrete diffusion. To efficiently decode and denoise tokens in parallel, we recast Masked Generative Image Transformer into the discrete diffusion framework with a few simple changes, resulting in notable improvement. When applied to learning world models on point cloud observations, our model reduces prior SOTA Chamfer distance by more than 65% for 1s prediction, and more than 50% for 3s prediction, across NuScenes, KITTI Odometry, and Argoverse2 datasets. Our results demonstrate that discrete diffusion on tokenized agent experience can unlock the power of GPT-like unsupervised learning for robotic agents.
Abstract（参考訳）: 学習世界モデルはエージェントに、教師なしのやり方で世界がどのように機能するかを教えることができる。シーケンスモデリングの特殊なケースと見なすことができるが、自律運転のようなロボットアプリケーション上での世界モデルをスケールする進歩は、ジェネレーティブ・プレトレーニング・トランスフォーマー(GPT)を用いた言語モデルをスケールするよりもやや速かった。複雑で構造化されていない観測空間を扱うことと、スケーラブルな生成モデルを持つことである。そこで本研究では,まずVQVAEを用いてセンサ観測をトークン化し,離散拡散により未来を予測する新しい世界モデリング手法を提案する。トークンを並列にデコードし、デノーズするために、マスク付き生成画像トランスフォーマーを離散拡散フレームワークに若干の簡単な変更で再キャストし、顕著な改善を行った。点雲観測の学習の世界モデルに適用した場合、我々のモデルは1s予測で65%以上、NuScenes、KITTI Odometry、Argoverse2データセットで3s予測で50%以上削減する。本研究は,ロボットエージェントに対するGPTのような教師なし学習のパワーを解き放つことができることを示す。

関連論文リスト

Learning Visually Interpretable Oscillator Networks for Soft Continuum Robots from Video [4.857795247230421]
本稿では,自動エンコーダに基づく潜在動的学習のためのプラグイン・アンド・プレイモジュールであるAttention Broadcast Decoder (ABCD)を紹介する。 ABCDは静的背景をフィルタリングしながら、各潜伏次元の寄与をローカライズした画素精度の注意マップを生成する。 ABCDに基づくモデルにより,複数ステップの予測精度が大幅に向上することが実証された。
論文参考訳（メタデータ） (2025-11-23T07:27:39Z)
GWM: Towards Scalable Gaussian World Models for Robotic Manipulation [53.51622803589185]
本稿では,ロボット操作のための世界モデルGawssian World Model (GWM)を提案する。中心となるのは、潜伏拡散変換器(DiT)と3次元変分オートエンコーダを組み合わせることで、微粒なシーンレベルの将来の状態復元を可能にする。シミュレーションと実世界の実験の両方で、GWMは多様なロボットのアクションに照らされた未来のシーンを正確に予測できる。
論文参考訳（メタデータ） (2025-08-25T02:01:09Z)
MinD: Unified Visual Imagination and Control via Hierarchical World Models [32.08769443927576]
ビデオ生成モデル(VGM)は、ロボット工学における統一世界モデリングのための有望な経路を提供する。 Manipulate in Dream (MinD) は階層的拡散に基づく世界モデルフレームワークであり、視覚言語操作にデュアルシステム設計を採用する。 MinDは、VGMを低周波で実行し、リアルタイムインタラクションに高周波拡散ポリシを活用しながら、映像予測特徴を抽出する。
論文参考訳（メタデータ） (2025-06-23T17:59:06Z)
AMPLIFY: Actionless Motion Priors for Robot Learning from Videos [29.799207502031496]
AMPLIFYは,大規模ビデオデータを活用する新しいフレームワークである。我々は、豊富なアクションフリービデオでフォワードダイナミクスモデルを訓練し、限られたアクションラベル付き例で逆ダイナミクスモデルを訓練する。下流の政策学習において、我々のダイナミクス予測は、低データのレシエーションにおいて1.2-2.2倍の改善を実現し、アクションフリーなヒューマンビデオから学ぶことで平均1.4倍の改善を実現し、非配布アクションデータからLIBEROタスクへの第1次一般化を可能にした。
論文参考訳（メタデータ） (2025-06-17T05:31:42Z)
Galileo: Learning Global and Local Features in Pretrained Remote Sensing Models [34.71460539414284]
大規模・小規模両方の特徴を学習するための,新しい,かつ効果的な自己指導型学習手法を提案する。我々のガリレオモデルは様々なリモートセンシングタスクにまたがって最先端の結果を得る。
論文参考訳（メタデータ） (2025-02-13T14:21:03Z)
HAMSTER: Hierarchical Action Models For Open-World Robot Manipulation [54.03004125910057]
階層型視覚-言語-アクションモデルは、標準的なモノリシックVLAモデルよりも、ドメイン外のデータを利用するのに効果的であることを示す。階層設計により、高レベルなVLMは、オフドメイン微調整データと実ロボットテストシナリオの間の重要なドメインギャップをまたいで転送可能であることを示す。
論文参考訳（メタデータ） (2025-02-08T07:50:22Z)
VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文参考訳（メタデータ） (2024-11-14T03:13:26Z)
Mitigating Covariate Shift in Imitation Learning for Autonomous Vehicles Using Latent Space Generative World Models [60.87795376541144]
World Model(ワールドモデル)は、エージェントの次の状態を予測できるニューラルネットワークである。エンド・ツー・エンドのトレーニングでは、人間のデモで観察された状態と整合してエラーから回復する方法を学ぶ。クローズドループ試験における先行技術に有意な改善がみられた定性的,定量的な結果を示す。
論文参考訳（メタデータ） (2024-09-25T06:48:25Z)
Generalizable Implicit Neural Representation As a Universal Spatiotemporal Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文参考訳（メタデータ） (2024-06-13T02:03:22Z)
DriveWorld: 4D Pre-trained Scene Understanding via World Models for Autonomous Driving [67.46481099962088]
現在の視覚中心の事前訓練は、通常、2Dまたは3Dのプリテキストタスクに依存し、自律運転の時間的特性を4Dシーン理解タスクとして見落としている。我々は,マルチカメラ駆動ビデオからテンポラリな方法で事前学習が可能なEmphcentricDriveWorldを紹介した。 DriveWorldは、さまざまな自動運転タスクに関する有望な結果を提供する。
論文参考訳（メタデータ） (2024-05-07T15:14:20Z)
Spatiotemporal Implicit Neural Representation as a Generalized Traffic Data Learner [46.866240648471894]
時空間交通データ(STTD)は、マルチスケール交通システムの複雑な動的挙動を測定する。本稿では,STTDを暗黙的ニューラル表現としてパラメータ化することで,STTD学習問題に対処する新しいパラダイムを提案する。実世界のシナリオにおける広範な実験を通じて,その有効性を検証し,廊下からネットワークスケールへの応用を示す。
論文参考訳（メタデータ） (2024-05-06T06:23:06Z)
Humanoid Locomotion as Next Token Prediction [84.21335675130021]
我々のモデルは感覚運動軌道の自己回帰予測によって訓練された因果変換器である。われわれのモデルでは、フルサイズのヒューマノイドがサンフランシスコでゼロショットで歩けることが示されている。われわれのモデルは、わずか27時間の歩行データで訓練された場合でも現実世界に移行でき、後方歩行のような訓練中に見えないコマンドを一般化することができる。
論文参考訳（メタデータ） (2024-02-29T18:57:37Z)
Predictive World Models from Real-World Partial Observations [66.80340484148931]
本研究では,現実の道路環境に対する確率論的予測世界モデル学習のためのフレームワークを提案する。従来の手法では、学習のための基礎的真理として完全状態を必要とするが、HVAEが部分的に観察された状態のみから完全状態を予測することを学べる新しい逐次訓練法を提案する。
論文参考訳（メタデータ） (2023-01-12T02:07:26Z)
Harnessing expressive capacity of Machine Learning modeling to represent complex coupling of Earth's auroral space weather regimes [0.0]
我々は,大域オーロラ粒子降水量の予測を推し進める複数の深層学習(DL)モデルを開発した。我々は、地球を周回する低軌道の電子エネルギーフラックスから観測を行い、地球上の流星を改良するモデルを開発した。特に、MLモデルは、歴史的に正確な仕様まで、極端な事象の予測を改善し、MLイノベーションによって提供される能力の増大が、宇宙天気の科学における大きな課題に対処できることを示唆している。
論文参考訳（メタデータ） (2021-11-29T22:35:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。