論文の概要: Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models
- arxiv url: http://arxiv.org/abs/2405.19878v1
- Date: Thu, 30 May 2024 09:34:31 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-31 15:09:01.768313
- Title: Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models
- Title(参考訳): ランダムなデモから学ぶ:重要度サンプル拡散モデルによるオフライン強化学習
- Authors: Zeyu Fang, Tian Lan,
- Abstract要約: 閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
- 参考スコア(独自算出の注目度): 19.05224410249602
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Generative models such as diffusion have been employed as world models in offline reinforcement learning to generate synthetic data for more effective learning. Existing work either generates diffusion models one-time prior to training or requires additional interaction data to update it. In this paper, we propose a novel approach for offline reinforcement learning with closed-loop policy evaluation and world-model adaptation. It iteratively leverages a guided diffusion world model to directly evaluate the offline target policy with actions drawn from it, and then performs an importance-sampled world model update to adaptively align the world model with the updated policy. We analyzed the performance of the proposed method and provided an upper bound on the return gap between our method and the real environment under an optimal policy. The result sheds light on various factors affecting learning performance. Evaluations in the D4RL environment show significant improvement over state-of-the-art baselines, especially when only random or medium-expertise demonstrations are available -- thus requiring improved alignment between the world model and offline policy evaluation.
- Abstract(参考訳): 拡散のような生成モデルは、より効果的な学習のための合成データを生成するために、オフライン強化学習において世界モデルとして採用されている。
既存の作業は、トレーニング前に1回だけ拡散モデルを生成するか、更新するために追加のインタラクションデータを必要とする。
本稿では,閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習手法を提案する。
誘導拡散世界モデルを反復的に利用し、オフラインターゲットポリシーをそこから引き出されたアクションで直接評価し、重要サンプルの世界モデル更新を行い、世界モデルと更新ポリシーを適応的に整合させる。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
その結果、学習のパフォーマンスに影響を及ぼす様々な要因が明らかになった。
D4RL環境での評価は、特にランダムまたは中級の試験が利用可能である場合に、最先端のベースラインよりも大幅に改善され、ワールドモデルとオフラインポリシー評価の整合性を改善する必要がある。
関連論文リスト
- Policy-Guided Diffusion [30.4597043728046]
多くの現実世界の設定では、エージェントは以前の行動ポリシーによって収集されたオフラインデータセットから学ぶ必要がある。
本稿では,自己回帰的オフライン世界モデルに代わる政策誘導拡散法を提案する。
本研究では,政策誘導拡散モデルが目標分布の正規化形態をモデル化し,目標と行動の両ポリシの下で行動可能性のバランスをとることを示す。
論文 参考訳(メタデータ) (2024-04-09T14:46:48Z) - MOTO: Offline Pre-training to Online Fine-tuning for Model-based Robot
Learning [52.101643259906915]
本研究では,高次元観測による強化学習におけるオフライン事前学習とオンラインファインチューニングの問題について検討する。
既存のモデルベースオフラインRL法は高次元領域におけるオフラインからオンラインへの微調整には適していない。
本稿では,事前データをモデルベース値拡張とポリシー正則化によって効率的に再利用できるオンラインモデルベース手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T21:04:31Z) - Federated Learning with Projected Trajectory Regularization [65.6266768678291]
フェデレーション学習は、ローカルデータを共有せずに、分散クライアントから機械学習モデルの共同トレーニングを可能にする。
連合学習における重要な課題の1つは、クライアントにまたがる識別できない分散データを扱うことである。
本稿では,データ問題に対処するための予測軌道正則化(FedPTR)を備えた新しいフェデレーション学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-22T02:12:08Z) - ReCoRe: Regularized Contrastive Representation Learning of World Model [21.29132219042405]
対照的な教師なし学習と介入不変正規化器を用いて不変特徴を学習する世界モデルを提案する。
提案手法は,現状のモデルベースおよびモデルフリーのRL法より優れ,iGibsonベンチマークで評価された分布外ナビゲーションタスクを大幅に改善する。
論文 参考訳(メタデータ) (2023-12-14T15:53:07Z) - World Models via Policy-Guided Trajectory Diffusion [21.89154719069519]
既存の世界モデルは、次の状態を予測するために、ポリシーから次のアクションをサンプリングする、自己回帰的である。
本稿では, 自己回帰的でない新しい世界モデリング手法を提案する。
論文 参考訳(メタデータ) (2023-12-13T21:46:09Z) - Model-Based Reinforcement Learning with Multi-Task Offline Pretraining [59.82457030180094]
本稿では,オフラインデータから新しいタスクへ,潜在的に有用なダイナミックスや動作デモを伝達するモデルベースRL法を提案する。
主な考え方は、世界モデルを行動学習のシミュレーターとしてだけでなく、タスクの関連性を測定するツールとして使うことである。
本稿では,Meta-WorldとDeepMind Control Suiteの最先端手法と比較して,我々のアプローチの利点を実証する。
論文 参考訳(メタデータ) (2023-06-06T02:24:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Model Generation with Provable Coverability for Offline Reinforcement
Learning [14.333861814143718]
動的対応ポリシーによるオフライン最適化は、ポリシー学習とアウト・オブ・ディストリビューションの一般化の新しい視点を提供する。
しかし、オフライン環境での制限のため、学習したモデルは実際のダイナミクスを十分に模倣することができず、信頼性の高いアウト・オブ・ディストリビューション探索をサポートできなかった。
本研究では,実力学のカバレッジを最適化するモデルを生成するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-01T08:34:09Z) - Bridging Imagination and Reality for Model-Based Deep Reinforcement
Learning [72.18725551199842]
BrIdging Reality and Dream (BIRD) と呼ばれる新しいモデルに基づく強化学習アルゴリズムを提案する。
虚構と実軌跡の相互情報を最大化し、虚構から学んだ政策改善を実軌跡に容易に一般化できるようにする。
提案手法は, モデルベース計画のサンプル効率を向上し, 挑戦的なビジュアル制御ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2020-10-23T03:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。