論文の概要: Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training
- arxiv url: http://arxiv.org/abs/2605.07288v1
- Date: Fri, 08 May 2026 05:54:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-11 19:43:38.837323
- Title: Sword: Style-Robust World Models as Simulators via Dynamic Latent Bootstrapping for VLA Policy Post-Training
- Title(参考訳): 剣:VLA政策後トレーニングのための動的潜水式ブートストラップによるシミュレーターとしてのスタイル・ロバスト世界モデル
- Authors: Jiaxuan Gao, Yongjian Guo, Zhong Guan, Wen Huang, Wanlun Ma, Xi Xiao, Junwu Xiong, Sheng Wen,
- Abstract要約: あるアプローチは、学習した世界モデルを生成シミュレータとして扱い、「想像」内での政策最適化を可能にする
しかしながら、LIBEROベンチマークのような特定の環境のシミュレータとしてデプロイされる場合、既存のWorld Modelは一般化が貧弱で長い水平誤差の蓄積に悩まされることが多い。
我々はこれらの問題を緩和するために、堅牢なワールドモデルフレームワークであるSwordを提案する。
- 参考スコア(独自算出の注目度): 19.013714390803052
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of Vision-Language-Action (VLA) models with World Models has gained increasing attention. One representative approach treats learned World Models as generative simulators, enabling policy optimization entirely within "imagination." However, when deployed as simulators for specific environments such as the LIBERO benchmark, existing World Models often suffer from poor generalization and long-horizon error accumulation. During closed-loop rollouts, these models are highly sensitive to initial-state perturbations; minor changes in color, illumination, and other visual factors can trigger cascading hallucinations, leading to severe blurriness or overexposure. Moreover, long-horizon error accumulation further degrades the quality and fidelity of predicted future states. These issues limit the reliability of World Models as simulators. To mitigate these problems, we propose Sword, a robust World Model framework. Our method introduces Structure-Guided Style Augmentation to disentangle the visual textures of interactive environments from task-relevant dynamics, thereby improving generalization. We further propose Dynamic Latent Bootstrapping, which maintains consistency between training and inference while keeping memory consumption low. Extensive experiments on the LIBERO benchmark show that our method significantly outperforms the baseline WoVR in terms of generalization, generation quality, robustness, fidelity, and the success rate of reinforcement-learning post-training for VLA models.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルとWorld Modelsの統合が注目されている。
1つの代表的なアプローチは、学習した世界モデルを生成シミュレータとして扱い、完全に「想像」内でポリシーの最適化を可能にする。
しかしながら、LIBEROベンチマークのような特定の環境のシミュレータとしてデプロイされる場合、既存のWorld Modelは一般化が貧弱で長い水平誤差の蓄積に悩まされることが多い。
閉ループのロールアウトの間、これらのモデルは初期状態の摂動に非常に敏感であり、色、照明、その他の視覚的要因の変化はカスケード幻覚を誘発し、激しいぼやけや過剰露光を引き起こす。
さらに、長い水平誤差の蓄積は、予測される将来の状態の品質と忠実度をさらに低下させる。
これらの問題は、シミュレーターとしてのWorld Modelsの信頼性を制限する。
これらの問題を緩和するために、堅牢なワールドモデルフレームワークであるSwordを提案する。
本手法では,対話型環境の視覚的テクスチャをタスク関連力学から切り離し,一般化を向上する構造ガイド型スタイル拡張を提案する。
さらに、メモリ消費を低く保ちながら、トレーニングと推論の整合性を維持するDynamic Latent Bootstrappingを提案する。
LIBEROベンチマークの大規模な実験により,VLAモデルの一般化,生成品質,堅牢性,忠実性,強化後学習の成功率において,本手法がWoVRのベースラインを著しく上回ることが示された。
関連論文リスト
- Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models [35.944951371813296]
VLA(Vision-Language-Action)モデルは、ロボット制御の強力な一般化を示すが、強化学習(RL)を用いてそれらを微調整することは、現実世界の相互作用のコストと安全性のリスクに制約される。
VLAファインタニングにおけるこれらの問題に対処するための実践的なフレームワークであるVLA-MBPOを提案する。
データ効率のよい世界モデリングのための統一マルチモーダルモデルへの適応 (i) マルチビュー整合性を実現するためのインターリーブビューデコーディング機構 (ii) エラー合成を緩和するためのチャンクレベル分岐ロールアウト (iii) の3つの主要な設計選択がある。
論文 参考訳(メタデータ) (2026-03-21T02:44:39Z) - Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。
本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。
基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-12T15:21:47Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - Zero-Reference Joint Low-Light Enhancement and Deblurring via Visual Autoregressive Modeling with VLM-Derived Modulation [18.67176370944511]
現実の暗黒画像は、視界とコントラストの低いだけでなく、複雑なノイズやぼやけも示しており、重要な修復上の課題を呈している。
視覚言語モデル(VLM)を用いた視覚自己回帰モデル(VAR)に基づく生成フレームワークを提案する。
我々のフレームワークは完全に教師なしであり、ベンチマークデータセット上で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-23T19:08:45Z) - WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。
WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文 参考訳(メタデータ) (2025-11-12T17:54:09Z) - DriveVLA-W0: World Models Amplify Data Scaling Law in Autonomous Driving [52.63591791507895]
将来の画像の予測に世界モデリングを利用するトレーニングパラダイムである textbfDriveVLA-W0 を提案する。
このタスクは、運転環境の基礎となる力学を学ぶためにモデルを補完する密集した自己教師信号を生成する。
NAVSIM v1/v2ベンチマークと680倍の社内データセットの実験は、DriveVLA-W0がBEVとVLAのベースラインを大きく上回っていることを示している。
論文 参考訳(メタデータ) (2025-10-14T17:59:47Z) - Learning Primitive Embodied World Models: Towards Scalable Robotic Learning [50.32986780156215]
我々は,世界モデリングのための新しいパラダイム--Primitive Embodied World Models (PEWM)を提案する。
ビデオ生成を固定的な短地平線に制限することにより,ロボット行動の言語概念と視覚的表現の微妙なアライメントを可能にする。
我々のフレームワークは、きめ細かい物理的相互作用と高レベルの推論のギャップを埋め、スケーラブルで解釈可能で汎用的なインテリジェンスへの道を開く。
論文 参考訳(メタデータ) (2025-08-28T14:31:48Z) - Adapting World Models with Latent-State Dynamics Residuals [10.892848566977369]
ReDRAWは、シミュレーションで事前訓練され、ターゲット環境に調整された潜在状態自己回帰世界モデルである。
これにより、RLエージェントを、修正された動的条件の下で想像上のロールアウトで最適化し、現実世界にデプロイすることが可能になる。
論文 参考訳(メタデータ) (2025-04-03T03:41:30Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - EDELINE: Enhancing Memory in Diffusion-based World Models via Linear-Time Sequence Modeling [8.250616459360684]
EDELINEは、状態空間モデルと拡散モデルを統合する統一世界モデルアーキテクチャである。
我々のアプローチは、視覚的に困難なAtari 100kタスク、メモリ要求ベンチマーク、3DファーストパーソンのViZDoom環境において、既存のベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-02-01T15:49:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。