論文の概要: World2Act: Latent Action Post-Training via Skill-Compositional World Models
- arxiv url: http://arxiv.org/abs/2603.10422v1
- Date: Wed, 11 Mar 2026 05:11:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.789425
- Title: World2Act: Latent Action Post-Training via Skill-Compositional World Models
- Title(参考訳): World2Act: Skill-Compositional World Modelsによる潜在行動ポストトライニング
- Authors: An Dinh Vuong, Tuan Van Vo, Abdullah Sohail, Haoran Ding, Liang Ma, Xiaodan Liang, Anqing Duan, Ivan Laptev, Ian Reid,
- Abstract要約: 世界モデル(WM)は、ビジョン・ランゲージ・アクション(VLA)政策の訓練後、有望なアプローチとして登場した。
我々は、VLAアクションとWMビデオダイナミックスラテントを直接整列するポストトレーニングフレームワークであるWorld2Actを紹介する。
我々は,多様なタスク地平線で時間的に一貫したスキル構成型WMをサポートするRoboCasa-SkillとLIBERO-Skillを製造する。
- 参考スコア(独自算出の注目度): 54.657754921863834
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: World Models (WMs) have emerged as a promising approach for post-training Vision-Language-Action (VLA) policies to improve robustness and generalization under environmental changes. However, most WM-based post-training methods rely on pixel-space supervision, making policies sensitive to pixel-level artifacts and hallucination from imperfect WM rollouts. We introduce World2Act, a post-training framework that aligns VLA actions directly with WM video-dynamics latents using a contrastive matching objective, reducing dependence on pixels. Post-training performance is tied to rollout quality, yet current WMs struggle with arbitrary-length video generation as they are mostly trained on fixed-length clips while robotic execution durations vary widely. To address this, we propose an automatic LLM-based skill-decomposition pipeline that segments high-level instructions into low-level prompts. Our pipeline produces RoboCasa-Skill and LIBERO-Skill, supporting skill-compositional WMs that remain temporally consistent across diverse task horizons. Empirically, applying World2Act to VLAs like GR00T-N1.6 and Cosmos Policy achieves state-of-the-art results on RoboCasa and LIBERO, and improves real-world performance by 6.7%, enhancing embodied agent generalization.
- Abstract(参考訳): 世界モデル(WM)は、環境変化下での堅牢性と一般化を改善するために、ビジョン・ランゲージ・アクション(VLA)政策の訓練後において有望なアプローチとして登場した。
しかしながら、ほとんどのWMベースのポストトレーニング手法は画素空間の監督に依存しており、画素レベルのアーティファクトに敏感なポリシーと不完全なWMロールアウトからの幻覚を発生させる。
本稿では,VLA アクションと WM ビデオダイナミックスラテントを直接整列するポストトレーニングフレームワーク World2Act を紹介する。
ポストトレーニングのパフォーマンスはロールアウトの品質に結びついているが、現在のWMは、主に固定長のクリップで訓練されているため、任意の長さのビデオ生成に苦労している。
そこで本研究では,高レベルの命令を低レベルのプロンプトに分割するLLMベースのスキル分解パイプラインを提案する。
我々のパイプラインはRoboCasa-SkillとLIBERO-Skillを生成し、多様なタスクの水平線で時間的に一貫したスキル構成のWMをサポートする。
実証的に、GR00T-N1.6やコスモスポリシーのようなVLAにWorld2Actを適用すると、RoboCasaやLIBEROの最先端の結果が得られ、現実世界のパフォーマンスが6.7%向上し、エンボディエージェントの一般化が向上する。
関連論文リスト
- LiLo-VLA: Compositional Long-Horizon Manipulation via Linked Object-Centric Policies [54.150202739999806]
LiLo-VLAは、新しいロングホライゾンタスクに対してゼロショットのモジュラリティをトレーニングすることなく実現できるモジュラーフレームワークである。
LIBERO-Long++とUltra-Longという2つの課題からなる21タスクのシミュレーションベンチマークを導入する。
これらのシミュレーションでは、LiLo-VLAは平均成功率69%を達成し、Pi0.5を41%、OpenVLA-OFTを67%上回った。
論文 参考訳(メタデータ) (2026-02-25T03:33:39Z) - Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - Act2Goal: From World Model To General Goal-conditioned Policy [14.222177107215648]
Act2Goalは、ゴール条件付きビジュアルワールドモデルとマルチスケールの時間制御を統合した、ゴール条件付き操作ポリシーである。
Act2Goalは、自律的なインタラクションの数分以内に、配布外タスクに挑戦する上で、成功率を30%から90%に改善することを示す。
論文 参考訳(メタデータ) (2025-12-29T15:28:42Z) - World-in-World: World Models in a Closed-Loop World [123.85805788728128]
我々は,実エージェントと環境の相互作用を反映したクローズドループの世界において,世界モデルをベンチマークする最初のオープンプラットフォームであるWorld-in-Worldを紹介した。
多様なWMを厳格に評価し、タスク成功を主要な指標として優先順位付けし、視覚的品質に重点を置く4つのクローズドループ環境をキュレートする。
1)視覚的品質だけではタスクの成功は保証されないが、制御可能性の方が重要であること、2) 行動観測データによる後トレーニングのスケーリングは、事前訓練されたビデオジェネレータをアップグレードするよりも効果的であること、3) 推論時計算の割り当てにより、WMsは大幅にクローズドな改善が可能であること、の3つのサプライズを明らかにした。
論文 参考訳(メタデータ) (2025-10-20T22:09:15Z) - Towards Robust and Generalizable Continuous Space-Time Video Super-Resolution with Events [71.2439653098351]
連続時空ビデオスーパーSTVSRは、高解像度で高フレームのビデオを任意の時間スケールで再構成する能力への関心が高まっている。
EvEnhancerは、イベントストリームにカプセル化された高時間および高ダイナミックレンジのユニークな特性を結合する新しいアプローチである。
提案手法は,OODスケールでの一般化性を維持しつつ,合成および実世界の両方のデータセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2025-10-04T15:23:07Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - Embodied Long Horizon Manipulation with Closed-loop Code Generation and Incremental Few-shot Adaptation [12.077740860502878]
身体的ロングホライゾン操作では、ロボットシステムが視覚や自然言語などのマルチモーダル入力を処理し、それらを実行可能なアクションに変換する必要がある。
近年,大規模言語モデル (LLM) を自然言語を用いてタスクをサブタスクに分解し,事前訓練した低レベルコントローラを誘導する高レベルプランナとしての利用が検討されている。
我々のフレームワークは,LoHoRavens,CALVIN,Franka Kitchen,および乱雑な現実世界設定をまたいだ,30以上の多様かつ不明瞭なロングホライゾンタスクに対して,最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2025-03-27T20:32:58Z) - CAMEL: Continuous Action Masking Enabled by Large Language Models for Reinforcement Learning [3.602902292270654]
連続行動空間における強化学習(RL)は、非効率な探索や準最適解への収束のような永続的な課題に遭遇する。
我々は,LLM生成した準最適ポリシーをRLトレーニングパイプラインに統合する新しいフレームワークであるCAMELを提案する。
論文 参考訳(メタデータ) (2025-02-17T15:22:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。