Fugu-MT 論文翻訳(概要): Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

論文の概要: Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning

arxiv url: http://arxiv.org/abs/2208.06193v1
Date: Fri, 12 Aug 2022 09:54:11 GMT
ステータス: 翻訳完了
システム内更新日: 2022-08-15 12:59:58.388439
Title: Diffusion Policies as an Expressive Policy Class for Offline Reinforcement Learning
Title（参考訳）: オフライン強化学習のための表現型政策クラスとしての拡散政策
Authors: Zhendong Wang, Jonathan J Hunt, Mingyuan Zhou
Abstract要約: オフライン強化学習(RL)は、以前に収集した静的データセットを使って最適なポリシーを学ぶことを目的としている。標準のRLメソッドは、アウト・オブ・ディストリビューション・アクションの関数近似誤差のために、このタスクではよく機能しない。本稿では, 条件付き拡散モデルを用いて, 行動のクローン化とポリシーの正規化を行うための, 表現力の高いポリシークラスとしてDiffusion-QLを提案する。
参考スコア（独自算出の注目度）: 57.98480322396875
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Offline reinforcement learning (RL), which aims to learn an optimal policy using a previously collected static dataset, is an important paradigm of RL. Standard RL methods often perform poorly at this task due to the function approximation errors on out-of-distribution actions. While a variety of regularization methods have been proposed to mitigate this issue, they are often constrained by policy classes with limited expressiveness and sometimes result in substantially suboptimal solutions. In this paper, we propose Diffusion-QL that utilizes a conditional diffusion model as a highly expressive policy class for behavior cloning and policy regularization. In our approach, we learn an action-value function and we add a term maximizing action-values into the training loss of a conditional diffusion model, which results in a loss that seeks optimal actions that are near the behavior policy. We show the expressiveness of the diffusion model-based policy and the coupling of the behavior cloning and policy improvement under the diffusion model both contribute to the outstanding performance of Diffusion-QL. We illustrate our method and prior work in a simple 2D bandit example with a multimodal behavior policy. We then show that our method can achieve state-of-the-art performance on the majority of the D4RL benchmark tasks for offline RL.
Abstract（参考訳）: オフライン強化学習(RL)は、以前に収集した静的データセットを用いて最適なポリシーを学習することを目的としており、RLの重要なパラダイムである。標準のrlメソッドは、分散動作における関数近似誤差のため、このタスクではよく機能しない。この問題を緩和するために様々な正則化法が提案されているが、表現力に制限のある政策クラスによって制約され、時には実質的に準最適解をもたらす。本稿では,条件付き拡散モデルを用いた拡散QLを,行動のクローン化とポリシー規則化のための高度に表現力のあるポリシークラスとして活用する。提案手法では,行動値関数を学習し,条件付き拡散モデルのトレーニング損失に対して,行動値の最大化という用語を付加する。本稿では,拡散モデルに基づく政策の表現性と,拡散モデルに基づく行動クローニングと政策改善の結合が,拡散-QLの卓越した性能に寄与することを示す。本稿では,マルチモーダル行動ポリシーを用いた簡易な2次元バンドイット例を用いて,提案手法と先行研究について述べる。そこで本手法は,オフラインRLにおけるD4RLベンチマークタスクの大部分に対して,最先端の性能を実現することができることを示す。

関連論文リスト

Learning Multimodal Behaviors from Scratch with Diffusion Policy Gradient [26.675822002049372]
Deep Diffusion Policy Gradient (DDiffPG)は、マルチモーダルポリシーから学習する新しいアクター批判アルゴリズムである。 DDiffPGはマルチモーダルトレーニングバッチを形成し、モード固有のQ-ラーニングを使用して、RL目的の固有の欲求を緩和する。さらに,本手法では,学習モードを明示的に制御するために,モード固有の埋め込みにポリシーを条件付けることができる。
論文参考訳（メタデータ） (2024-06-02T09:32:28Z)
Diffusion Actor-Critic: Formulating Constrained Policy Iteration as Diffusion Noise Regression for Offline Reinforcement Learning [13.163511229897667]
オフラインの強化学習では、価値関数の過大評価を防ぐために、配布外動作を管理する必要がある。拡散雑音回帰問題としてクルバック・リブラー (KL) 制約ポリシーの繰り返しを定式化する拡散アクタ・クリティカル (DAC) を提案する。提案手法はD4RLベンチマークで評価され,ほぼすべての環境において最先端の手法よりも優れている。
論文参考訳（メタデータ） (2024-05-31T00:41:04Z)
Diffusion Policies creating a Trust Region for Offline Reinforcement Learning [66.17291150498276]
本稿では,拡散信頼型Q-Learning (DTQL) という2つの政策アプローチを導入する。 DTQLは、トレーニングと推論の両方において反復的なデノレーションサンプリングの必要性を排除し、計算的に極めて効率的である。 DTQLは、D4RLベンチマークタスクの大部分において、他のメソッドよりも優れているだけでなく、トレーニングや推論速度の効率性も示すことができる。
論文参考訳（メタデータ） (2024-05-30T05:04:33Z)
Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文参考訳（メタデータ） (2024-05-29T03:19:59Z)
Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文参考訳（メタデータ） (2024-05-25T10:45:46Z)
Score Regularized Policy Optimization through Diffusion Behavior [25.926641622408752]
オフライン強化学習の最近の進歩は拡散モデリングの潜在可能性を明らかにしている。本稿では,批判モデルと事前学習した拡散行動モデルから,効率的な決定論的推論ポリシーを抽出することを提案する。本手法は,移動作業における各種拡散法と比較して,動作サンプリング速度を25倍以上に向上させる。
論文参考訳（メタデータ） (2023-10-11T08:31:26Z)
Statistically Efficient Variance Reduction with Double Policy Estimation for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。 D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文参考訳（メタデータ） (2023-08-28T20:46:07Z)
Policy Representation via Diffusion Probability Model for Reinforcement Learning [67.56363353547775]
拡散確率モデルを用いて政策表現の理論的基礎を構築する。本稿では,拡散政策の多様性を理解するための理論を提供する,拡散政策の収束保証について述べる。本研究では,Diffusion POlicyを用いたモデルフリーオンラインRLの実装であるDIPOを提案する。
論文参考訳（メタデータ） (2023-05-22T15:23:41Z)
Offline Reinforcement Learning with Closed-Form Policy Improvement Operators [88.54210578912554]
行動制約付きポリシー最適化は、オフライン強化学習に対処するための成功パラダイムであることが示されている。本稿では,閉形式政策改善演算子を提案する。我々は、標準的なD4RLベンチマークにおいて、最先端アルゴリズムに対するそれらの効果を実証的に実証した。
論文参考訳（メタデータ） (2022-11-29T06:29:26Z)
Offline Reinforcement Learning via High-Fidelity Generative Behavior Modeling [34.88897402357158]
政策モデルの分布表現性に制限があるため,従来の手法はトレーニング中にも見つからない行動を選択する可能性がある。我々は,学習方針を表現的生成行動モデルと行動評価モデルという2つの部分に分解して生成的アプローチを採用する。提案手法は,最先端のオフラインRL法と比較して,競争力や優れた性能を実現する。
論文参考訳（メタデータ） (2022-09-29T04:36:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。