論文の概要: LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation
- arxiv url: http://arxiv.org/abs/2505.11528v1
- Date: Tue, 13 May 2025 04:42:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.678397
- Title: LaDi-WM: A Latent Diffusion-based World Model for Predictive Manipulation
- Title(参考訳): LaDi-WM:予測操作のための潜時拡散に基づく世界モデル
- Authors: Yuhang Huang, JIazhao Zhang, Shilong Zou, XInwang Liu, Ruizhen Hu, Kai Xu,
- Abstract要約: 拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
LIBERO-LONGベンチマークでは,LaDi-WMが27.9%,現実シナリオでは20%,政策性能が著しく向上することを示した。
- 参考スコア(独自算出の注目度): 51.834607121538724
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Predictive manipulation has recently gained considerable attention in the Embodied AI community due to its potential to improve robot policy performance by leveraging predicted states. However, generating accurate future visual states of robot-object interactions from world models remains a well-known challenge, particularly in achieving high-quality pixel-level representations. To this end, we propose LaDi-WM, a world model that predicts the latent space of future states using diffusion modeling. Specifically, LaDi-WM leverages the well-established latent space aligned with pre-trained Visual Foundation Models (VFMs), which comprises both geometric features (DINO-based) and semantic features (CLIP-based). We find that predicting the evolution of the latent space is easier to learn and more generalizable than directly predicting pixel-level images. Building on LaDi-WM, we design a diffusion policy that iteratively refines output actions by incorporating forecasted states, thereby generating more consistent and accurate results. Extensive experiments on both synthetic and real-world benchmarks demonstrate that LaDi-WM significantly enhances policy performance by 27.9\% on the LIBERO-LONG benchmark and 20\% on the real-world scenario. Furthermore, our world model and policies achieve impressive generalizability in real-world experiments.
- Abstract(参考訳): 予測操作は、予測状態を活用することでロボットポリシーのパフォーマンスを向上させる可能性があるため、最近、Embodied AIコミュニティで注目を集めている。
しかし、世界モデルからロボットと物体の相互作用の正確な視覚状態を生成することは、特に高品質なピクセルレベルの表現を実現する上で、よく知られた課題である。
この目的のために,拡散モデルを用いて将来の状態の潜伏空間を予測する世界モデルLaDi-WMを提案する。
具体的には、LaDi-WMは、事前訓練されたVisual Foundation Models (VFM) と整合した確立された潜在空間を活用し、幾何学的特徴(DINOベース)と意味的特徴(CLIPベース)の両方を含む。
我々は、ピクセルレベルの画像を直接予測するよりも、潜伏空間の進化を予測する方が学習しやすく、より一般化しやすいことを発見した。
本研究では,LaDi-WMに基づいて,予測状態を組み込んで出力動作を反復的に洗練し,より一貫性と正確な結果を生成する拡散政策を設計する。
LaDi-WMはLIBERO-LONGベンチマークで27.9 %、現実のシナリオで20 %向上することを示した。
さらに、実世界の実験において、我々の世界モデルと政策は印象的な一般化性を達成する。
関連論文リスト
- Object-Centric World Model for Language-Guided Manipulation [4.008780119020479]
エージェントが自律運転やロボット工学といった分野の将来と計画を予測するためには,世界モデルが不可欠である。
本稿では,言語命令で案内されたスロットアテンションを用いて,オブジェクト中心の表現空間を活用する世界モデルを提案する。
本モデルでは,オブジェクト中心の表現として現在の状態を認識し,この表現空間における将来の状態を自然言語命令で予測する。
論文 参考訳(メタデータ) (2025-03-08T11:17:37Z) - Learning Transformer-based World Models with Contrastive Predictive Coding [58.0159270859475]
変換器の表現能力を十分に活用するには,次の状態予測目標が不十分であることを示す。
本稿では,行動条件のContrastive Predictive Codingを用いた世界モデルであるTWISTERを導入することで,世界モデル予測をより長い時間的地平線まで拡張することを提案する。
TWISTERは、Atari 100kベンチマークで162%の人間正規化平均スコアを達成し、ルックアヘッド検索を使用しない最先端のメソッドの中で、新しい記録を樹立した。
論文 参考訳(メタデータ) (2025-03-06T13:18:37Z) - ACT-JEPA: Novel Joint-Embedding Predictive Architecture for Efficient Policy Representation Learning [90.41852663775086]
ACT-JEPAは模倣学習と自己教師型学習を統合する新しいアーキテクチャである。
我々はアクションシーケンスと抽象的な観察シーケンスを予測するポリシーを訓練する。
実験の結果,ACT-JEPAは時間環境の動的学習によって表現の質を向上させることがわかった。
論文 参考訳(メタデータ) (2025-01-24T16:41:41Z) - Masked Generative Priors Improve World Models Sequence Modelling Capabilities [19.700020499490137]
Masked Generative Modellingはより効率的で優れた帰納的バイアスとして登場した。
GIT-STORMは、Atari 100kベンチマークでRLタスクのパフォーマンスが大幅に向上したことを示している。
トランスフォーマーをベースとした世界モデルが初めて連続行動環境に適用し、先行研究における大きなギャップに対処する。
論文 参考訳(メタデータ) (2024-10-10T11:52:07Z) - VLPose: Bridging the Domain Gap in Pose Estimation with Language-Vision
Tuning [53.35114015288077]
我々は,効率的なチューニング戦略により,自然シナリオと人工シナリオのドメインギャップを埋める。
ポーズ推定モデルの一般化とロバスト性を拡張するために,VLPoseと呼ばれる新しいフレームワークを開発した。
我々はHumanArtとMSCOCOでそれぞれ2.26%と3.74%の改善を示した。
論文 参考訳(メタデータ) (2024-02-22T11:21:54Z) - Conditioned Human Trajectory Prediction using Iterative Attention Blocks [70.36888514074022]
本研究では,都市環境における歩行者位置予測を目的とした,簡易かつ効果的な歩行者軌道予測モデルを提案する。
我々のモデルは、複数のアテンションブロックとトランスフォーマーを反復的に実行できるニューラルネットワークアーキテクチャである。
ソーシャルマスク, 動的モデル, ソーシャルプーリング層, 複雑なグラフのような構造を明示的に導入することなく, SoTAモデルと同等の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T07:49:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。