論文の概要: DiLA: Disentangled Latent Action World Models
- arxiv url: http://arxiv.org/abs/2605.15725v1
- Date: Fri, 15 May 2026 08:22:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 17:44:16.311511
- Title: DiLA: Disentangled Latent Action World Models
- Title(参考訳): DiLA: 潜入型アクションワールドモデル
- Authors: Tianqiu Zhang, Muyang Lyu, Yufan Zhang, Fang Fang, Si Wu,
- Abstract要約: ラテントアクションモデル(LAM)は、ラベルのないビデオから世界モデルの学習を可能にする。
LAMは、アクション抽象化とジェネレーションフィリティの根本的なトレードオフに直面します。
コンテンツ構造不整合(contentanglement)を通じてこのトレードオフを解決することを目的とした,新しいディスタングル・ラテント・アクション・ワールド・モデルであるDiLAを紹介する。
- 参考スコア(独自算出の注目度): 11.259992289079534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Latent Action Models (LAMs) enable the learning of world models from unlabeled video by inferring abstract actions between consecutive frames. However, LAMs face a fundamental trade-off between action abstraction and generation fidelity. Existing methods typically circumvent this issue by using two-stage training with pre-trained world models or by limiting predictions to optical flow. In this paper, we introduce DiLA, a novel Disentangled Latent Action world model that aims to resolve this trade-off via content-structure disentanglement. Our key insight is that disentanglement and latent action learning are co-evolving: the predictive bottleneck inherent in latent action learning serves as a driving force for disentanglement, compelling the model to distill spatial layouts into the structure pathway while offloading visual details to a separate content pathway for generation. This synergy yields a continuous, semantically structured latent action space without compromising generative quality. DiLA achieves superior results in video generation quality, action transfer, visual planning, and manifold interpretability. These findings establish DiLA as a unified framework that simultaneously achieves high-level action abstraction and high-fidelity generation, advancing the frontier of self-supervised world model learning.
- Abstract(参考訳): ラテントアクションモデル(LAM)は、連続するフレーム間で抽象的なアクションを推論することによって、ラベルのないビデオから世界モデルの学習を可能にする。
しかし、LAMはアクションの抽象化とジェネレーションの忠実さの間に根本的なトレードオフに直面している。
既存の方法は、訓練済みの世界モデルを用いた2段階のトレーニングや、光の流れの予測に制限を加えることで、この問題を回避するのが一般的である。
本稿では,コンテンツ構造不整合(contentanglement)を介し,このトレードオフを解決することを目的とした,新しいディスタングル・ラテント・アクション・ワールド・モデルであるDiLAを紹介する。
潜在行動学習に固有の予測的ボトルネックは、乱れの駆動力として機能し、視覚的詳細を生成のために別個のコンテンツ経路にオフロードしながら、空間的レイアウトを構造経路に挿入するようにモデルを説得する。
このシナジーは、生成的品質を損なうことなく、連続的に、意味的に構造化された潜在作用空間をもたらす。
DiLAは、ビデオ生成の品質、アクション転送、視覚計画、および多様体解釈性において優れた結果を得る。
これらの知見は、高レベルのアクション抽象化と高忠実度生成を同時に達成し、自己教師付き世界モデル学習のフロンティアを推し進める統一的なフレームワークとして、DiLAを確立した。
関連論文リスト
- Learning Vision-Language-Action World Models for Autonomous Driving [15.103497388527943]
VLA(Vision-Language-Action)モデルは最近、エンドツーエンドの自動運転において顕著な進歩を遂げている。
VLAモデルは時相力学と世界整合性の明示的なモデリングを欠いていることが多い。
VLA-World(VLA-World)は、予測的想像力と反射的推論を統一する、シンプルで効果的なVLA世界モデルである。
論文 参考訳(メタデータ) (2026-04-10T07:38:05Z) - Chain of World: World Model Thinking in Latent Motion [24.24061036481793]
VLA(Vision-Language-Action)モデルはしばしば、視覚力学の基礎となる予測的・時間的・因果的構造を見落としている。
我々は,世界モデルの時間的推論を非絡み合いの潜在動作表現と統合する新しい「世界の連鎖」パラダイムであるCoWVLAを紹介した。
CoWVLAは、既存のワールドモデルおよび潜在アクションアプローチより優れ、適度な計算効率を達成する。
論文 参考訳(メタデータ) (2026-03-03T17:52:06Z) - Co-Evolving Latent Action World Models [57.48921576959243]
学習済みのビデオモデルを潜在アクションを介して制御可能な世界モデルに適応させることは、ジェネラリストの世界モデルを作成するための有望なステップである。
本稿では,この相乗的パラダイムを初めて実現したCoLA-Worldを提案する。
世界モデルは知識のある家庭教師として機能し、高品質のLAMを形成するための勾配を提供する。
論文 参考訳(メタデータ) (2025-10-30T12:28:40Z) - DreamVLA: A Vision-Language-Action Model Dreamed with Comprehensive World Knowledge [41.030494146004806]
本稿では,逆動力学モデリングを実現するために,包括的世界知識予測を統合した新しいVLAフレームワークであるDreamVLAを提案する。
DreamVLAは、動的領域誘導の世界知識予測を導入し、空間的および意味的な手がかりと統合し、アクション計画のためのコンパクトで包括的な表現を提供する。
実世界とシミュレーション環境での実験では、ドリームVLAが実際のロボットタスクで76.7%の成功率を達成したことが示されている。
論文 参考訳(メタデータ) (2025-07-06T16:14:29Z) - AdaWorld: Learning Adaptable World Models with Latent Actions [76.50869178593733]
我々は,効率的な適応を実現する革新的な世界モデル学習手法であるAdaWorldを提案する。
主要なアイデアは、世界モデルの事前トレーニング中にアクション情報を統合することである。
次に、これらの潜伏行動を条件とした自己回帰的世界モデルを開発する。
論文 参考訳(メタデータ) (2025-03-24T17:58:15Z) - Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [65.85335291827086]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。