論文の概要: Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach
- arxiv url: http://arxiv.org/abs/2505.06482v1
- Date: Sat, 10 May 2025 00:54:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.861727
- Title: Video-Enhanced Offline Reinforcement Learning: A Model-Based Approach
- Title(参考訳): ビデオ強化オフライン強化学習 : モデルに基づくアプローチ
- Authors: Minting Pan, Yitao Zheng, Jiajian Li, Yunbo Wang, Xiaokang Yang,
- Abstract要約: Video-Enhanced Offline RL (VeoRL) は、インタラクティブな世界モデルを構築するためのモデルベースのアプローチである。
本手法は,ロボット操作,自律運転,オープンワールドゲームにおいて,バイスモータ制御タスクにおける大幅な性能向上を実現する。
- 参考スコア(独自算出の注目度): 55.76249793590689
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning (RL) enables policy optimization in static datasets, avoiding the risks and costs of real-world exploration. However, it struggles with suboptimal behavior learning and inaccurate value estimation due to the lack of environmental interaction. In this paper, we present Video-Enhanced Offline RL (VeoRL), a model-based approach that constructs an interactive world model from diverse, unlabeled video data readily available online. Leveraging model-based behavior guidance, VeoRL transfers commonsense knowledge of control policy and physical dynamics from natural videos to the RL agent within the target domain. Our method achieves substantial performance gains (exceeding 100% in some cases) across visuomotor control tasks in robotic manipulation, autonomous driving, and open-world video games.
- Abstract(参考訳): オフライン強化学習(RL)は、静的データセットにおけるポリシー最適化を可能にし、現実世界の探索のリスクとコストを回避する。
しかし、環境相互作用の欠如により、最適下行動学習と不正確な価値推定に苦慮している。
本稿では,VeoRL(Video-Enhanced Offline RL, VeoRL)を提案する。
モデルに基づく行動ガイダンスを活用して、VeoRLは、コントロールポリシーと物理力学に関する常識知識を、自然ビデオからターゲットドメイン内のRLエージェントに転送する。
本手法は,ロボット操作,自律運転,オープンワールドゲームにおいて,バイスモータ制御タスクにおける性能向上(場合によっては100%)を実現する。
関連論文リスト
- Disentangled World Models: Learning to Transfer Semantic Knowledge from Distracting Videos for Reinforcement Learning [93.58897637077001]
本稿では,オフラインからオンラインまでの潜水蒸留とフレキシブルなゆがみ制約を通したビデオから,セマンティックな違いを学習し,理解することを試みる。
動作自由なビデオ予測モデルを非干渉正規化によりオフラインでトレーニングし、注意をそらすビデオから意味的知識を抽出する。
オンライン環境での微調整には、事前学習されたモデルからの知識を活用し、世界モデルに絡み合った制約を導入する。
論文 参考訳(メタデータ) (2025-03-11T13:50:22Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - Making Offline RL Online: Collaborative World Models for Offline Visual Reinforcement Learning [93.99377042564919]
本稿では,潜在的利点の探索を妨げることなく,より柔軟な値推定制約を構築することを試みる。
鍵となるアイデアは、オフラインポリシの"テストベッド"として、オンライン形式で簡単に操作可能な、市販のRLシミュレータを活用することだ。
我々は、状態と報酬空間におけるドメイン間の差異を軽減するモデルベースのRLアプローチであるCoWorldを紹介する。
論文 参考訳(メタデータ) (2023-05-24T15:45:35Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。