論文の概要: Consistency Models as a Rich and Efficient Policy Class for
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2309.16984v1
- Date: Fri, 29 Sep 2023 05:05:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-02 15:14:55.102113
- Title: Consistency Models as a Rich and Efficient Policy Class for
Reinforcement Learning
- Title(参考訳): 強化学習のための豊かで効率的な政策クラスとしての一貫性モデル
- Authors: Zihan Ding, Chi Jin
- Abstract要約: 拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)へのマルチモーダルデータのモデリングに有効であることが証明された。
本稿では,3つの典型的なRL設定に対するアクタ批判型アルゴリズムを用いて,一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
- 参考スコア(独自算出の注目度): 30.501249545074984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Score-based generative models like the diffusion model have been testified to
be effective in modeling multi-modal data from image generation to
reinforcement learning (RL). However, the inference process of diffusion model
can be slow, which hinders its usage in RL with iterative sampling. We propose
to apply the consistency model as an efficient yet expressive policy
representation, namely consistency policy, with an actor-critic style algorithm
for three typical RL settings: offline, offline-to-online and online. For
offline RL, we demonstrate the expressiveness of generative models as policies
from multi-modal data. For offline-to-online RL, the consistency policy is
shown to be more computational efficient than diffusion policy, with a
comparable performance. For online RL, the consistency policy demonstrates
significant speedup and even higher average performances than the diffusion
policy.
- Abstract(参考訳): 拡散モデルのようなスコアベース生成モデルは、画像生成から強化学習(RL)までのマルチモーダルデータのモデリングに有効であることが証明された。
しかし、拡散モデルの推論過程は遅くなり、反復的なサンプリングでRLでの使用が妨げられる。
本稿では, オフライン, オフライン-オンライン, オンラインの3つの典型的なRL設定に対して, アクター批判型アルゴリズムを用いて, 一貫性モデルを効率的かつ表現力のあるポリシー表現として適用することを提案する。
オフラインRLでは,マルチモーダルデータからのポリシーとして生成モデルの表現性を示す。
オフライン-オンラインrlでは、一貫性ポリシーは拡散ポリシーよりも計算効率が高く、同等の性能を持つ。
オンラインrlでは、一貫性ポリシーは拡散ポリシーよりも大幅なスピードアップとさらに高い平均パフォーマンスを示している。
関連論文リスト
- Learning from Random Demonstrations: Offline Reinforcement Learning with Importance-Sampled Diffusion Models [19.05224410249602]
閉ループポリシー評価と世界モデル適応を用いたオフライン強化学習のための新しい手法を提案する。
提案手法の性能を解析し,提案手法と実環境とのリターンギャップに上限を設けた。
論文 参考訳(メタデータ) (2024-05-30T09:34:31Z) - Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Policy Representation via Diffusion Probability Model for Reinforcement
Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。
本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。
本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文 参考訳(メタデータ) (2023-05-22T15:23:41Z) - A Unified Framework for Alternating Offline Model Training and Policy
Learning [62.19209005400561]
オフラインモデルに基づく強化学習では、歴史的収集データから動的モデルを学び、学習モデルと固定データセットを用いてポリシー学習を行う。
提案手法は,本手法が期待するリターンを最小限に抑えるための,反復的なオフラインMBRLフレームワークを開発する。
提案する統一型モデル政治学習フレームワークにより、我々は、広範囲の連続制御オフライン強化学習データセット上での競合性能を実現する。
論文 参考訳(メタデータ) (2022-10-12T04:58:51Z) - Diffusion Policies as an Expressive Policy Class for Offline
Reinforcement Learning [70.20191211010847]
オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。
本稿では,条件付き拡散モデルを用いたディフュージョンQ-ラーニング(Diffusion-QL)を提案する。
本手法はD4RLベンチマークタスクの大部分において最先端の性能を実現することができることを示す。
論文 参考訳(メタデータ) (2022-08-12T09:54:11Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z) - MOReL : Model-Based Offline Reinforcement Learning [49.30091375141527]
オフライン強化学習(RL)では、環境との歴史的相互作用のデータセットのみに基づく高報酬政策を学習することが目的である。
モデルベースオフラインRLのためのアルゴリズムフレームワークMOReLを提案する。
オフラインRLベンチマークにおいてMOReLが最先端の結果と一致するか,あるいは超えるかを示す。
論文 参考訳(メタデータ) (2020-05-12T17:52:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。