Fugu-MT 論文翻訳(概要): Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

論文の概要: Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models

arxiv url: http://arxiv.org/abs/2603.20607v1
Date: Sat, 21 Mar 2026 02:44:39 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-24 19:11:38.992594
Title: Towards Practical World Model-based Reinforcement Learning for Vision-Language-Action Models
Title（参考訳）: ビジョンランゲージ・アクションモデルのための実践的世界モデルに基づく強化学習に向けて
Authors: Zhilong Zhang, Haoxiang Ren, Yihao Sun, Yifei Sheng, Haonan Wang, Haoxin Lin, Zhichao Wu, Pierre-Luc Bacon, Yang Yu,
Abstract要約: VLA(Vision-Language-Action)モデルは、ロボット制御の強力な一般化を示すが、強化学習(RL)を用いてそれらを微調整することは、現実世界の相互作用のコストと安全性のリスクに制約される。 VLAファインタニングにおけるこれらの問題に対処するための実践的なフレームワークであるVLA-MBPOを提案する。データ効率のよい世界モデリングのための統一マルチモーダルモデルへの適応 (i) マルチビュー整合性を実現するためのインターリーブビューデコーディング機構 (ii) エラー合成を緩和するためのチャンクレベル分岐ロールアウト (iii) の3つの主要な設計選択がある。
参考スコア（独自算出の注目度）: 35.944951371813296
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Vision-Language-Action (VLA) models show strong generalization for robotic control, but finetuning them with reinforcement learning (RL) is constrained by the high cost and safety risks of real-world interaction. Training VLA models in interactive world models avoids these issues but introduces several challenges, including pixel-level world modeling, multi-view consistency, and compounding errors under sparse rewards. Building on recent advances across large multimodal models and model-based RL, we propose VLA-MBPO, a practical framework to tackle these problems in VLA finetuning. Our approach has three key design choices: (i) adapting unified multimodal models (UMMs) for data-efficient world modeling; (ii) an interleaved view decoding mechanism to enforce multi-view consistency; and (iii) chunk-level branched rollout to mitigate error compounding. Theoretical analysis and experiments across simulation and real-world tasks demonstrate that VLA-MBPO significantly improves policy performance and sample efficiency, underscoring its robustness and scalability for real-world robotic deployment.
Abstract（参考訳）: VLA(Vision-Language-Action)モデルは、ロボット制御の強力な一般化を示すが、強化学習(RL)を用いてそれらを微調整することは、現実世界の相互作用のコストと安全性のリスクに制約される。インタラクティブな世界モデルにおけるVLAモデルのトレーニングはこれらの問題を回避しているが、画素レベルの世界モデリング、マルチビューの一貫性、スパース報酬下での複雑なエラーなど、いくつかの課題を導入している。大規模マルチモーダルモデルとモデルベースRLの最近の進歩に基づいて,VLAファインタニングにおけるこれらの問題に対処するための実践的フレームワークであるVLA-MBPOを提案する。私たちのアプローチには3つの重要な設計選択があります。一データ効率の世界モデリングに統一マルチモーダルモデル(UMM)を適用すること。 (ii)多視点一貫性を強制するインターリーブビュー復号機構、及び (iii)チャンクレベルの分岐ロールアウトにより、エラーの複合を緩和する。シミュレーションと実世界のタスクに関する理論的分析と実験により、VLA-MBPOはポリシー性能とサンプル効率を大幅に改善し、実世界のロボット展開の堅牢性とスケーラビリティを実証している。

関連論文リスト

Reshaping Action Error Distributions for Reliable Vision-Language-Action Models [69.38615670891038]
ロボット操作において、視覚言語アクション(VLA)モデルは、一般化可能でスケーラブルなロボットポリシーを学ぶための有望なパラダイムとして登場した。連続動作型VLAモデルに焦点をあて、トレーニング中の動作誤差分布を再構成することにより、従来のMSEベースの回帰を超越する。複数の代表的VLAアーキテクチャ上で、標準、少数ショット、ノイズの多い設定にまたがるアプローチを評価します。
論文参考訳（メタデータ） (2026-02-04T05:37:09Z)
The Law of Multi-Model Collaboration: Scaling Limits of Model Ensembling for Large Language Models [54.51795784459866]
マルチモデル協調のための性能スケーリングの理論的枠組みを提案する。本稿では,マルチモデルシステムにおいて,パラメータの総数に関して,パワー則のスケーリングが従うことを示す。不均一なモデルファミリのアンサンブルは、単一のモデルファミリ内で形成されたものよりも優れたパフォーマンスのスケーリングを実現する。
論文参考訳（メタデータ） (2025-12-29T09:55:12Z)
WMPO: World Model-based Policy Optimization for Vision-Language-Action Models [22.01666177489494]
VLA(Vision-Language-Action)モデルは汎用ロボット操作の強力な可能性を示している。 WMPO(World-Model-based Policy Optimization)は、実環境と対話することなく、オンラインVLAのための原則的フレームワークである。
論文参考訳（メタデータ） (2025-11-12T17:54:09Z)
NExT-OMNI: Towards Any-to-Any Omnimodal Foundation Models with Discrete Flow Matching [64.10695425442164]
NExT-OMNI(英語版)は、離散フローパラダイムによる統一モデリングを実現するオープンソース・オムニモーダル・ファンデーション・モデルである。 NExT-OMNIは、大規模なインターリーブ付きテキスト、画像、ビデオ、オーディオデータに基づいて訓練され、マルチモーダル生成および理解ベンチマーク上で競合するパフォーマンスを提供する。さらなる研究を進めるために、トレーニングの詳細、データプロトコル、およびコードとモデルチェックポイントの両方をオープンソース化する。
論文参考訳（メタデータ） (2025-10-15T16:25:18Z)
Improving Vision-Language-Action Model with Online Reinforcement Learning [17.043068379668842]
近年の研究では、教師付き微調整により、大規模視覚言語モデルを低レベルロボット制御に統合することに成功した。 VLAモデルを効果的に改善するために、強化学習と監視学習を反復するiRe-VLAフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-28T02:53:48Z)
Decentralized Transformers with Centralized Aggregation are Sample-Efficient Multi-Agent World Models [106.35361897941898]
本稿では,分散化された局所力学を拡張性のために学習するマルチエージェントRL(MARL)の新たな世界モデルを提案する。また、集中表現アグリゲーションを可能にする効果的なソリューションとしてPerceiver Transformerを導入する。 Starcraft Multi-Agent Challenge (SMAC) の結果は、サンプル効率と全体的な性能の両方において、強力なモデルフリーアプローチと既存のモデルベース手法よりも優れていることを示している。
論文参考訳（メタデータ） (2024-06-22T12:40:03Z)
ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文参考訳（メタデータ） (2023-12-14T15:53:07Z)
VDFD: Multi-Agent Value Decomposition Framework with Disentangled World Model [10.36125908359289]
本稿では,Distangled World Modelを用いた新しいモデルベースマルチエージェント強化学習手法であるValue Decomposition Frameworkを提案する。提案手法は, サンプル効率が高く, 多様なマルチエージェント学習タスクにおいて, 他のベースラインと比較して優れた性能を示す。
論文参考訳（メタデータ） (2023-09-08T22:12:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。