Fugu-MT 論文翻訳(概要): Coupled Local and Global World Models for Efficient First Order RL

論文の概要: Coupled Local and Global World Models for Efficient First Order RL

arxiv url: http://arxiv.org/abs/2602.06219v1
Date: Thu, 05 Feb 2026 21:57:41 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-09 22:18:26.1234
Title: Coupled Local and Global World Models for Efficient First Order RL
Title（参考訳）: 効率的な1次RLのための局所世界モデルとグローバル世界モデル
Authors: Joseph Amigo, Rooholla Khorrambakht, Nicolas Mansard, Ludovic Righetti,
Abstract要約: 本稿では,シミュレータを完全に回避し,実環境とロボットのインタラクションから学習した世界モデル内のRLポリシーをトレーニングする手法を提案する。提案手法は,FoG法を用いて,大規模拡散モデルを用いた政策訓練を可能にする。提案手法の有効性をPush-T操作タスクで示し, 試料効率においてPPOを著しく上回る結果を得た。
参考スコア（独自算出の注目度）: 10.305209288475817
License: http://creativecommons.org/licenses/by/4.0/
Abstract: World models offer a promising avenue for more faithfully capturing complex dynamics, including contacts and non-rigidity, as well as complex sensory information, such as visual perception, in situations where standard simulators struggle. However, these models are computationally complex to evaluate, posing a challenge for popular RL approaches that have been successfully used with simulators to solve complex locomotion tasks but yet struggle with manipulation. This paper introduces a method that bypasses simulators entirely, training RL policies inside world models learned from robots' interactions with real environments. At its core, our approach enables policy training with large-scale diffusion models via a novel decoupled first-order gradient (FoG) method: a full-scale world model generates accurate forward trajectories, while a lightweight latent-space surrogate approximates its local dynamics for efficient gradient computation. This coupling of a local and global world model ensures high-fidelity unrolling alongside computationally tractable differentiation. We demonstrate the efficacy of our method on the Push-T manipulation task, where it significantly outperforms PPO in sample efficiency. We further evaluate our approach through an ego-centric object manipulation task with a quadruped. Together, these results demonstrate that learning inside data-driven world models is a promising pathway for solving hard-to-model RL tasks in image space without reliance on hand-crafted physics simulators.
Abstract（参考訳）: 世界モデルは、標準的なシミュレーターが苦労する状況において、コンタクトや非剛性を含むより忠実に複雑なダイナミクスを捉えるための有望な道を提供する。しかし、これらのモデルは計算的に複雑であり、複雑な移動課題を解決するためにシミュレーターでうまく使われているが操作に苦労するRLアプローチに挑戦している。本稿では,シミュレータを完全に回避し,実環境とロボットのインタラクションから学習した世界モデル内のRLポリシーをトレーニングする手法を提案する。実世界モデルでは正確な前方軌道が生成され,軽量なラテント空間サロゲートでは局所力学を近似し,効率的な勾配計算を行う。この局所的およびグローバルな世界モデルの結合により、計算的に抽出可能な微分とともに高忠実な展開が保証される。提案手法がPush-T操作タスクにおいて有効であることを示し,本手法は試料効率においてPPOを著しく上回っている。我々はさらに,ego中心のオブジェクト操作タスクを四足歩行で行うことで,我々のアプローチを評価する。これらの結果から,データ駆動型世界モデル内での学習は,手作りの物理シミュレータに頼らずに,画像空間におけるハード・ツー・モデルRLタスクを解く上で有望な経路であることが示唆された。

関連論文リスト

Disentangling perception and reasoning for improving data efficiency in learning cloth manipulation without demonstrations [2.2800981616160843]
衣服の操作は日常生活においてユビキタスな作業だが、ロボット工学にとってはオープンな課題だ。布地操作政策の展開の困難さは, 高次元状態空間, 複雑な力学, 布地が示す自己閉塞に対する高い正当性に起因する。そこで本研究では, シミュレーション学習において, 注意深い設計選択, モデルサイズ, トレーニング時間を著しく短縮できることを示す。
論文参考訳（メタデータ） (2026-01-29T13:41:35Z)
World4RL: Diffusion World Models for Policy Refinement with Reinforcement Learning for Robotic Manipulation [23.270985761700203]
我々は,ロボット操作のための事前学習ポリシーを洗練させるために,拡散型世界モデルを高忠実度シミュレータとして利用するフレームワーク World4RL を提案する。 World4RLは、高忠実な環境モデリングを提供し、一貫したポリシー改善を可能にし、模倣学習に比べて成功率を大幅に向上させる。
論文参考訳（メタデータ） (2025-09-23T14:38:15Z)
Accelerating Model-Based Reinforcement Learning with State-Space World Models [18.71404724458449]
強化学習(Reinforcement Learning, RL)は、ロボット学習における強力なアプローチである。しかし、モデルフリーRL(MFRL)は、制御ポリシーをうまく学習するために、多数の環境相互作用を必要とする。状態空間世界モデルを用いたモデルベースRLの高速化手法を提案する。
論文参考訳（メタデータ） (2025-02-27T15:05:25Z)
Robotic World Model: A Neural Network Simulator for Robust Policy Optimization in Robotics [50.191655141020505]
この研究は、長期水平予測、エラー蓄積、およびsim-to-real転送の課題に対処することで、モデルに基づく強化学習を前進させる。スケーラブルでロバストなフレームワークを提供することで、現実のアプリケーションにおいて適応的で効率的なロボットシステムを実現することができる。
論文参考訳（メタデータ） (2025-01-17T10:39:09Z)
STORM: Efficient Stochastic Transformer based World Models for Reinforcement Learning [82.03481509373037]
近年,モデルに基づく強化学習アルゴリズムは視覚入力環境において顕著な有効性を示している。本稿では,強力なモデリングと生成機能を組み合わせた効率的な世界モデルアーキテクチャであるTransformer-based wORld Model (STORM)を紹介する。 Stormは、Atari 100$kベンチマークで平均126.7%の人的パフォーマンスを達成し、最先端のメソッドの中で新しい記録を樹立した。
論文参考訳（メタデータ） (2023-10-14T16:42:02Z)
HarmonyDream: Task Harmonization Inside World Models [93.07314830304193]
モデルベース強化学習(MBRL)は、サンプル効率の学習を約束する。本稿では,タスク調和性を維持するために損失係数を自動的に調整する,シンプルで効果的なアプローチであるHarmonyDreamを提案する。
論文参考訳（メタデータ） (2023-09-30T11:38:13Z)
Sim-to-Real Deep Reinforcement Learning with Manipulators for Pick-and-place [1.7478203318226313]
深層強化学習モデルをシミュレーションから実世界に移す場合、その性能は満足できない。本稿では,ロボットが物体を効果的に選択・配置できる自己教師型視覚ベースDRL法を提案する。
論文参考訳（メタデータ） (2023-09-17T11:51:18Z)
Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文参考訳（メタデータ） (2023-06-06T02:24:41Z)
Continual Visual Reinforcement Learning with A Life-Long World Model [55.05017177980985]
視覚力学モデリングのための新しい連続学習手法を提案する。まず,タスク固有の潜在ダイナミクスを学習する長寿命世界モデルを紹介する。そして,探索・保守的行動学習手法を用いて,過去の課題に対する価値推定問題に対処する。
論文参考訳（メタデータ） (2023-03-12T05:08:03Z)
Bridging the Gap to Real-World Object-Centric Learning [66.55867830853803]
自己教師付き方法で訓練されたモデルから特徴を再構成することは、完全に教師なしの方法でオブジェクト中心表現が生じるための十分な訓練信号であることを示す。我々のアプローチであるDINOSAURは、シミュレーションデータ上で既存のオブジェクト中心学習モデルよりも大幅に優れています。
論文参考訳（メタデータ） (2022-09-29T15:24:47Z)
Cycle-Consistent World Models for Domain Independent Latent Imagination [0.0]
高いコストとリスクは、現実世界での自動運転車の訓練を困難にします。本稿では,Cycleconsistent World Modelsと呼ばれる新しいモデルに基づく強化学習手法を提案する。
論文参考訳（メタデータ） (2021-10-02T13:55:50Z)
Bridging Imagination and Reality for Model-Based Deep Reinforcement Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文参考訳（メタデータ） (2020-10-23T03:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。