論文の概要: DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks
- arxiv url: http://arxiv.org/abs/2604.16484v1
- Date: Mon, 13 Apr 2026 03:19:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.01857
- Title: DexWorldModel: Causal Latent World Modeling towards Automated Learning of Embodied Tasks
- Title(参考訳): DexWorldModel: 身体的タスクの自動学習に向けた因果潜在世界モデリング
- Authors: Yueci Deng, Guiliang Liu, Kui Jia,
- Abstract要約: 本稿では,DINOv3特徴を生成対象として用い,視覚ノイズから相互作用意味を乱す因果潜在世界モデル(CLWM)を提案する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えている。
EmbodiChainは、トレーニング中に物理基底軌道の無限の流れを注入することによって効率法を確立するオンラインフレームワークである。
- 参考スコア(独自算出の注目度): 54.32016216994156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying generative World-Action Models for manipulation is severely bottlenecked by redundant pixel-level reconstruction, $\mathcal{O}(T)$ memory scaling, and sequential inference latency. We introduce the Causal Latent World Model (CLWM), which employs DINOv3 features as generative targets to disentangle interaction semantics from visual noise, yielding highly robust domain generalization. To overcome memory scaling, CLWM features a Dual-State Test-Time Training (TTT) Memory that guarantees a strict $\mathcal{O}(1)$ footprint for long-horizon tasks. To overcome deployment latency, we propose Speculative Asynchronous Inference (SAI) to mask partial diffusion denoising behind physical execution, cutting blocking latency by about $50\%$. To scale robust policies, we present EmbodiChain, an online framework that establishes the Efficiency Law by injecting an infinite flow of physics-grounded trajectories during training. Extensive experiments validate that CLWM achieves state-of-the-art performance in complex dual-arm simulation and unprecedented zero-shot sim-to-real transfer on physical robots, outperforming baselines explicitly finetuned on real-world data.
- Abstract(参考訳): 操作のために生成するWorld-Action Modelをデプロイすることは、冗長なピクセルレベルの再構築、$\mathcal{O}(T)$メモリスケーリング、シーケンシャル推論レイテンシによって著しくボトルネックとなる。
本稿では、DINOv3特徴を生成ターゲットとして用い、視覚ノイズから相互作用意味論をアンタングル化し、極めて堅牢な領域一般化を実現するCoursal Latent World Model(CLWM)を紹介する。
メモリスケーリングを克服するため、CLWMはDual-State Test-Time Training (TTT)メモリを備えており、長い水平タスクに対して厳格な$\mathcal{O}(1)$フットプリントを保証する。
デプロイメント遅延を克服するため、物理的実行の背後にある部分的な拡散を隠蔽し、ブロッキング遅延を約50\%のコストで削減する、投機的非同期推論(SAI)を提案する。
堅牢なポリシをスケールするために,トレーニング中に物理基底軌道の無限の流れを注入することによって効率法則を確立するオンラインフレームワークであるEmbodiChainを提案する。
大規模な実験により、CLWMは複雑なデュアルアームシミュレーションおよび物理ロボットにおける前例のないゼロショット・シム・トゥ・リアル・トランスファーにおいて最先端の性能を達成し、実世界のデータに基づいて明確に微調整されたベースラインよりも優れていることが検証された。
関連論文リスト
- GIRL: Generative Imagination Reinforcement Learning via Information-Theoretic Hallucination Control [0.0]
GIRL(Generative Imagination Reinforcement Learning)は、この障害モードに2つの重要なコンポーネントで対処する潜在的世界モデルフレームワークである。
GIRLは、DreamerV3に対するタスク間の遅延ロールアウトドリフトを38~61%削減し、リターンを改善し、長距離タスクでの環境相互作用を少なくする。
蒸留前の変種はオーバーヘッドを減らし、フルモデルに対する計算効率を向上させる。
論文 参考訳(メタデータ) (2026-04-08T17:14:21Z) - Flash-Unified: A Training-Free and Task-Aware Acceleration Framework for Native Unified Models [19.51785202887522]
生成能力と理解能力を統合したネイティブ統合マルチモーダルモデルは、かなりの計算オーバーヘッドに直面している。
本稿では,統一モデルの最初の体系的解析を行い,パラメータの特殊化を明らかにした。
トレーニング不要でタスク対応のアクセラレーションフレームワークであるFlashUを導入し、各タスクの要求に合わせて最適化する。
論文 参考訳(メタデータ) (2026-03-16T13:37:55Z) - Infinite-World: Scaling Interactive World Models to 1000-Frame Horizons via Pose-Free Hierarchical Memory [101.2076718776139]
複雑な実環境において,1000フレーム以上のコヒーレントな視覚記憶を維持することのできる,堅牢な対話型世界モデルを提案する。
我々は,歴史的潜水剤を固定予算の幾何学的表現に蒸留するpose-free Memory (HPMC)を導入する。
また,連続動作を三状態論理に識別する不確実性認識型アクションラベルモジュールを提案する。
論文 参考訳(メタデータ) (2026-02-02T17:52:56Z) - Mosaic: Unlocking Long-Context Inference for Diffusion LLMs via Global Memory Planning and Dynamic Peak Taming [34.16016695663811]
拡散に基づく大規模言語モデル (dLLMs) は,グローバルプランニングと反復的改良を実現するために,同時認知を利用した,有望なパラダイムとして登場した。
既存の推論システムは、厳密なシステム非効率のため、このパラダイムに不適である。
ローカルな静的管理からグローバルな動的パラダイムに移行するメモリ効率のよい推論システムであるMosaicを提案する。
論文 参考訳(メタデータ) (2026-01-10T13:17:08Z) - The Curious Case of In-Training Compression of State Space Models [49.819321766705514]
ステートスペースモデル(SSM)は、並列化可能なトレーニングと高速推論の両方を提供する。
鍵となる設計上の課題は、表現力の最大化と計算負荷の制限の間の適切なバランスを打つことだ。
我々のアプローチである textscCompreSSM はリニアリカレントユニットのような線形時間不変SSMに適用されるが、選択モデルにも拡張可能である。
論文 参考訳(メタデータ) (2025-10-03T09:02:33Z) - Beyond Fixed: Training-Free Variable-Length Denoising for Diffusion Large Language Models [74.15250326312179]
拡散大言語モデルは効率的な並列生成とグローバルモデリングを提供する。
DLLMの主流の応用は、静的に事前定義された生成長の必要性によって妨げられている。
DAEDALは,動的適応長拡張を可能にする新しい学習自由化戦略である。
論文 参考訳(メタデータ) (2025-08-01T17:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。