論文の概要: Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.01407v1
- Date: Sat, 3 Jul 2021 11:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:19:28.030894
- Title: Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning
- Title(参考訳): Grass Greenerはどこにありますか。
オフライン強化学習のための一般政策イテレーションの再検討
- Authors: Lionel Blond\'e, Alexandros Kalousis
- Abstract要約: オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
- 参考スコア(独自算出の注目度): 81.15016852963676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of state-of-the-art baselines in the offline RL regime varies
widely over the spectrum of dataset qualities, ranging from "far-from-optimal"
random data to "close-to-optimal" expert demonstrations. We re-implement these
under a fair, unified, and highly factorized framework, and show that when a
given baseline outperforms its competing counterparts on one end of the
spectrum, it never does on the other end. This consistent trend prevents us
from naming a victor that outperforms the rest across the board. We attribute
the asymmetry in performance between the two ends of the quality spectrum to
the amount of inductive bias injected into the agent to entice it to posit that
the behavior underlying the offline dataset is optimal for the task. The more
bias is injected, the higher the agent performs, provided the dataset is
close-to-optimal. Otherwise, its effect is brutally detrimental. Adopting an
advantage-weighted regression template as base, we conduct an investigation
which corroborates that injections of such optimality inductive bias, when not
done parsimoniously, makes the agent subpar in the datasets it was dominant as
soon as the offline policy is sub-optimal. In an effort to design methods that
perform well across the whole spectrum, we revisit the generalized policy
iteration scheme for the offline regime, and study the impact of nine distinct
newly-introduced proposal distributions over actions, involved in proposed
generalization of the policy evaluation and policy improvement update rules. We
show that certain orchestrations strike the right balance and can improve the
performance on one end of the spectrum without harming it on the other end.
- Abstract(参考訳): オフラインのRLレギュレーションにおける最先端のベースラインのパフォーマンスは、"極端から最適"なランダムデータから"極端から最適"な専門家のデモンストレーションまで、データセットの品質の範囲で大きく異なる。
我々は、これらを公正で統一的で高分解能なフレームワークで再実装し、与えられたベースラインがスペクトルの一方の端で競合相手を上回る場合、反対側では決して実行されないことを示す。
この一貫した傾向は、ボード全体の他の部分を上回る勝利を命名することを妨げる。
我々は,品質スペクトルの両端間の性能の非対称性をエージェントに注入された誘導バイアスの量とみなして,オフラインデータセットの動作がタスクに最適であることを示す。
バイアスが注入されるほど、データセットが最適に近い場合、エージェントのパフォーマンスが高くなる。
そうでなければ、その効果は残酷に有害である。
優位重み付き回帰テンプレートをベースとして、このような最適性誘導バイアスの注入がパロニカルに行われなければ、オフラインポリシーが準最適となると、エージェントが支配的なデータセットにサブパールする、という調査を行う。
本研究は、全スペクトルにわたって良好に機能する手法を設計するために、オフライン体制における一般化されたポリシー反復方式を再検討し、政策評価及び政策改善更新規則の一般化にかかわる行動に対する9つの新たな提案分布の影響について検討する。
特定のオーケストレーションが適切なバランスをとっており、一方のスペクトルの性能をもう一方の端で損なうことなく向上させることができることを示す。
関連論文リスト
- Adaptive Advantage-Guided Policy Regularization for Offline Reinforcement Learning [12.112619241073158]
オフラインの強化学習では、アウト・オブ・ディストリビューションの課題が強調される。
既存の手法は、しばしば政策規則化を通じて学習されたポリシーを制約する。
適応アドバンテージ誘導政策正規化(A2PR)を提案する。
論文 参考訳(メタデータ) (2024-05-30T10:20:55Z) - Preferred-Action-Optimized Diffusion Policies for Offline Reinforcement Learning [19.533619091287676]
オフライン強化学習のための優先行動最適化拡散政策を提案する。
特に、表現的条件拡散モデルを用いて、行動ポリシーの多様な分布を表現する。
実験により,提案手法は従来のオフラインRL法と比較して,競争力や性能に優れることを示した。
論文 参考訳(メタデータ) (2024-05-29T03:19:59Z) - Optimal Baseline Corrections for Off-Policy Contextual Bandits [61.740094604552475]
オンライン報酬指標の偏りのないオフライン推定を最適化する意思決定ポリシーを学習することを目指している。
学習シナリオにおける同値性に基づく単一のフレームワークを提案する。
我々のフレームワークは、分散最適非バイアス推定器の特徴付けを可能にし、それに対する閉形式解を提供する。
論文 参考訳(メタデータ) (2024-05-09T12:52:22Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Pessimism in the Face of Confounders: Provably Efficient Offline Reinforcement Learning in Partially Observable Markov Decision Processes [99.26864533035454]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。