論文の概要: PiL-World: A Chunk-Wise World Model for VLA Policy-in-the-Loop Evaluation
- arxiv url: http://arxiv.org/abs/2606.05773v1
- Date: Thu, 04 Jun 2026 06:57:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.606892
- Title: PiL-World: A Chunk-Wise World Model for VLA Policy-in-the-Loop Evaluation
- Title(参考訳): PiL-World: VLAポリシ・イン・ザ・ループ評価のためのチャンクワイズ世界モデル
- Authors: Chong Ma, Taiyi Su, Jian Zhu, Jianjun Zhang, Zitai Huang, Yi Xu, Hanli Wang,
- Abstract要約: ビジョンアクション(VLA)ポリシーは、現実世界のロボットタスクにおいてクローズドループで動作する。
ロボット行動評価のための既存の世界モデルのほとんどは、オープンループ予測に限られている。
本稿では,ループ内VLA評価のためのチャンクワイド世界モデルPiL-Worldを提案する。
- 参考スコア(独自算出の注目度): 26.63633606928882
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language-action (VLA) policies operate in a closed loop in real-world robot tasks: a robot observes the scene, executes an action chunk, and conditions its next decision on the resulting observation. However, most existing world models for robot action evaluation are limited to open-loop prediction along pre-collected action trajectories. This prevents them from supporting closed-loop VLA evaluation, where each action chunk must be conditioned on the observation generated by the previous execution. To address this gap, we propose PiL-World, a chunk-wise world model designed for policy-in-the-loop VLA evaluation. Given the current observation and the action trajectory rolled out by a VLA policy, PiL-World generates multi-view future observations that are consistent with the VLA rollout and match the image inputs required by the policy. By alternating between VLA inference and world-model prediction, PiL-World enables closed-loop evaluation without real robot execution at every step. To improve rollout fidelity, PiL-World conditions video generation on action-derived visual control from head-view robot motion and latent histories that encode task execution context, while jointly predicting complementary multi-view observations. Beyond successful teleoperated demonstrations, it also learns from failed execution trajectories, helping the imagined rollouts better match the distribution of real policy executions. We evaluate PiL-World on three real dual-arm manipulation tasks. PiL-World generates imagined rollouts that are highly consistent with real robot executions. More importantly, compared with the baseline, it reduces the error between VLA success rates measured in real-world rollouts and those estimated through closed-loop world-model evaluation from 63.2% to 12.0%.
- Abstract(参考訳): ロボットはシーンを観察し、アクションチャンクを実行し、その結果の観察に次の決定を条件付ける。
しかしながら、ロボット行動評価のための既存のほとんどの世界モデルは、事前に収集された行動軌跡に沿ったオープンループ予測に限られている。
これにより、前回の実行で生成された観察で各アクションチャンクを条件付けしなければならないクローズドループVLA評価のサポートが不可能になる。
このギャップに対処するために,ループ内VLA評価のためのチャンクワイド世界モデルPiL-Worldを提案する。
VLAポリシーによって展開された現在の観測と行動軌跡から、PiL-WorldはVLAのロールアウトと一致し、ポリシーが要求する画像入力と一致する多視点の将来の観測を生成する。
VLA推論とワールドモデル予測とを交互に組み合わせることで、PiL-Worldは、実際のロボットを各ステップで実行せずにクローズループ評価を可能にする。
ロールアウトの忠実性を改善するために、PiL-Worldは、相補的な多視点観察を共同で予測しながら、ヘッドビューロボットモーションとタスク実行コンテキストを符号化する潜伏履歴からアクション由来の視覚制御にビデオ生成を条件付けている。
遠隔操作によるデモの成功以外にも、失敗した実行軌跡から学ぶことで、実際のポリシ実行の分布によくマッチする、という想像上のロールアウトを支援している。
3つの実際のデュアルアーム操作タスク上でのPiL-Worldの評価を行う。
PiL-Worldは、実際のロボットの実行と非常に整合した、想像上のロールアウトを生成する。
さらに重要なことは、ベースラインと比較して、実世界のロールアウトで測定されたVLA成功率とクローズドループの世界モデル評価で見積もられたVLA成功率の誤差を63.2%から12.0%に減らすことである。
関連論文リスト
- Global Prior Meets Local Consistency: Dual-Memory Augmented Vision-Language-Action Model for Efficient Robotic Manipulation [95.89924101984566]
GPM(Global Prior Memory)とLCM(Local Consistency Memory)を備えたデュアルメモリVLAフレームワークOptimusVLAを紹介する。
GPMはガウスノイズを意味論的に類似した軌道から取得したタスクレベルの先行値に置き換える。
LCMは、時間的コヒーレンスと軌道の滑らかさを強制する学習された一貫性制約を注入する。
論文 参考訳(メタデータ) (2026-02-22T15:39:34Z) - WoVR: World Models as Reliable Simulators for Post-Training VLA Policies with RL [30.884160045861616]
我々は、VLAポリシーの訓練後、信頼性の高い世界モデルに基づく強化学習フレームワークであるWoVRを提案する。
制御可能なアクション条件付きビデオワールドモデルによってロールアウト安定性を向上させる。
また、Keyframe-evolutiond Rolloutsによる効果的なエラー深度を低減するために、想像上のインタラクションを再確認する。
論文 参考訳(メタデータ) (2026-02-15T03:48:20Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。
連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。
複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文 参考訳(メタデータ) (2026-02-04T05:37:09Z) - Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Towards Deploying VLA without Fine-Tuning: Plug-and-Play Inference-Time VLA Policy Steering via Embodied Evolutionary Diffusion [8.05008302748311]
VLA-Pilotは、事前訓練されたVLAポリシーのゼロショット展開のための、プラグアンドプレイの推論時ポリシーステアリング手法である。
実験結果から,VLA-Pilotは市販のVLA政策の成功率を大幅に向上させることが示された。
論文 参考訳(メタデータ) (2025-11-18T06:30:52Z) - Improving Pre-Trained Vision-Language-Action Policies with Model-Based Search [7.9342097024286815]
VLAPS(Vision-Language-Action Planning & Search)について紹介する。
モデルベースの検索を事前訓練されたVLAポリシーの推論手順に組み込む。
VLAPSは、言語指定タスクにおけるVLAのみのベースラインを著しく上回る。
論文 参考訳(メタデータ) (2025-08-17T02:59:42Z) - WorldGym: World Model as An Environment for Policy Evaluation [41.204900701616914]
WorldGymは、実環境のプロキシとして機能する自動回帰、アクション条件付きビデオ生成モデルである。
ポリシーはモンテカルロの世界モデルによるロールアウトを通じて評価され、視覚言語モデルが報酬を提供する。
We show that WorldGym can maintain relative policy rankings across different policy version, sizes, and training checkpoints。
論文 参考訳(メタデータ) (2025-05-31T15:51:56Z) - CoT-VLA: Visual Chain-of-Thought Reasoning for Vision-Language-Action Models [89.44024245194315]
視覚言語行動モデル(VLA)に明示的な視覚連鎖(CoT)推論を組み込む手法を提案する。
視覚およびアクショントークンの理解と生成が可能な最先端の7B VLAであるCoT-VLAを紹介する。
実験の結果,CoT-VLAは実世界の操作タスクでは17%,シミュレーションベンチマークでは6%,最先端のVLAモデルでは6%,高い性能を示した。
論文 参考訳(メタデータ) (2025-03-27T22:23:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。