論文の概要: RISE: Self-Improving Robot Policy with Compositional World Model
- arxiv url: http://arxiv.org/abs/2602.11075v1
- Date: Wed, 11 Feb 2026 17:43:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 08:17:41.374138
- Title: RISE: Self-Improving Robot Policy with Compositional World Model
- Title(参考訳): RISE:構成世界モデルによる自己改善ロボット政策
- Authors: Jiazhi Yang, Kunyang Lin, Jinwei Li, Wencong Zhang, Tianwei Lin, Longyan Wu, Zhizhong Su, Hao Zhao, Ya-Qin Zhang, Li Chen, Ping Luo, Xiangyu Yue, Hongyang Li,
- Abstract要約: 我々は、想像力によるロボット強化学習のスケーラブルなフレームワークRISEを紹介する。
中心となるのは構成的世界モデルであり、制御可能なダイナミクスモデルを通じて多視点の未来を予測し、(ii)進捗値モデルを用いて想像結果を評価する。
これらのコンポーネントはクローズドループの自己改善パイプラインに統合され、虚構のロールアウトを継続的に生成し、利点を推定し、コストのかかる物理的相互作用なしに虚構空間のポリシーを更新する。
- 参考スコア(独自算出の注目度): 52.227523057681786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite the sustained scaling on model capacity and data acquisition, Vision-Language-Action (VLA) models remain brittle in contact-rich and dynamic manipulation tasks, where minor execution deviations can compound into failures. While reinforcement learning (RL) offers a principled path to robustness, on-policy RL in the physical world is constrained by safety risk, hardware cost, and environment reset. To bridge this gap, we present RISE, a scalable framework of robotic reinforcement learning via imagination. At its core is a Compositional World Model that (i) predicts multi-view future via a controllable dynamics model, and (ii) evaluates imagined outcomes with a progress value model, producing informative advantages for the policy improvement. Such compositional design allows state and value to be tailored by best-suited yet distinct architectures and objectives. These components are integrated into a closed-loop self-improving pipeline that continuously generates imaginary rollouts, estimates advantages, and updates the policy in imaginary space without costly physical interaction. Across three challenging real-world tasks, RISE yields significant improvement over prior art, with more than +35% absolute performance increase in dynamic brick sorting, +45% for backpack packing, and +35% for box closing, respectively.
- Abstract(参考訳): モデルキャパシティとデータ取得の持続的なスケーリングにもかかわらず、Vision-Language-Action(VLA)モデルは、小さな実行偏差が障害に混ざり合うような、コンタクトリッチでダイナミックな操作タスクでは不安定なままである。
強化学習(RL)はロバスト性への原則的な経路を提供するが、物理的世界におけるオンラインRLは、安全リスク、ハードウェアコスト、環境リセットによって制約される。
このギャップを埋めるために、想像力によるロボット強化学習のスケーラブルなフレームワークRISEを紹介します。
中心となるのは構成世界モデルです
(i)制御可能な動的モデルを用いて多視点未来を予測し、
二 進捗価値モデルにより予測された結果を評価し、政策改善の有益な利点を生み出す。
このような構成設計により、状態と価値は最も適しているが異なるアーキテクチャと目的によって調整される。
これらのコンポーネントはクローズドループの自己改善パイプラインに統合され、虚構のロールアウトを継続的に生成し、利点を推定し、コストのかかる物理的相互作用なしに虚構空間のポリシーを更新する。
3つの挑戦的な現実的タスクの中でRISEは先行技術よりも大幅に改善され、動的ブロックソートでは+35%以上の絶対的なパフォーマンスが向上し、バックパックパッキングでは+45%、ボックスクローズでは+35%が向上した。
関連論文リスト
- Self-Correcting VLA: Online Action Refinement via Sparse World Imagination [55.982504915794514]
本稿では, 自己補正VLA (SC-VLA) を提案する。
SC-VLAは最先端のパフォーマンスを達成し、最高タスクスループットを16%削減し、最高パフォーマンスのベースラインよりも9%高い成功率を得る。
論文 参考訳(メタデータ) (2026-02-25T06:58:06Z) - VLAW: Iterative Co-Improvement of Vision-Language-Action Policy and World Model [87.75549463328836]
本研究の目的は、反復的なオンラインインタラクションにより、視覚言語アクション(VLA)モデルの性能と信頼性を向上させることである。
本稿では,実世界のロールアウトデータを用いて,世界モデルの忠実度を向上する簡易な反復改善アルゴリズムを提案する。
基本方針よりも39.2%の絶対成功率向上と、生成した合成ロールアウトによるトレーニングによる11.6%の改善を実現している。
論文 参考訳(メタデータ) (2026-02-12T15:21:47Z) - World-VLA-Loop: Closed-Loop Learning of Video World Model and VLA Policy [55.03832008486675]
World-VLA-Loopは、世界モデルとVision-Language-Action (VLA) ポリシーの共同改良のためのクローズドループフレームワークである。
本研究では,将来観測と報奨信号の同時予測により,高忠実度インタラクティブシミュレータとして機能する状態認識型ビデオワールドモデルを提案する。
論文 参考訳(メタデータ) (2026-02-06T08:57:55Z) - AD-R1: Closed-Loop Reinforcement Learning for End-to-End Autonomous Driving with Impartial World Models [75.214287449744]
我々は,Impartial World Modelを中心に構築されたポストトレーニング政策改善のためのフレームワークを紹介する。
私たちの主な貢献は、このモデルに危険について正直であることを教えることです。
大規模な実験を通じて、我々のモデルは失敗を予測する上で、ベースラインを著しく上回っていることを実証する。
論文 参考訳(メタデータ) (2025-11-25T13:57:24Z) - Offline Robotic World Model: Learning Robotic Policies without a Physics Simulator [50.191655141020505]
強化学習(Reinforcement Learning, RL)は、ロボット制御において目覚ましい能力を示してきたが、高いサンプルの複雑さ、安全性の懸念、そしてシム・トゥ・リアルのギャップのため、依然として困難である。
物理シミュレータに頼らずに政策学習を改善するために不確実性を明示的に推定するモデルベースアプローチであるオフラインロボット世界モデル(RWM-O)を導入する。
論文 参考訳(メタデータ) (2025-04-23T12:58:15Z) - Domain Randomization for Robust, Affordable and Effective Closed-loop
Control of Soft Robots [10.977130974626668]
ソフトロボットは、コンタクトや適応性に対する本質的な安全性によって人気を集めている。
本稿では、ソフトロボットのRLポリシーを強化することにより、ドメインランダム化(DR)がこの問題を解決する方法を示す。
本稿では,変形可能なオブジェクトに対する動的パラメータの自動推論のための,従来の適応的領域ランダム化手法に対する新しいアルゴリズム拡張を提案する。
論文 参考訳(メタデータ) (2023-03-07T18:50:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。