論文の概要: Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2107.01407v1
- Date: Sat, 3 Jul 2021 11:00:56 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 15:19:28.030894
- Title: Where is the Grass Greener? Revisiting Generalized Policy Iteration for
Offline Reinforcement Learning
- Title(参考訳): Grass Greenerはどこにありますか。
オフライン強化学習のための一般政策イテレーションの再検討
- Authors: Lionel Blond\'e, Alexandros Kalousis
- Abstract要約: オフラインRL体制における最先端のベースラインを、公正で統一的で高分解能なフレームワークの下で再実装する。
与えられたベースラインが、スペクトルの一方の端で競合する相手よりも優れている場合、他方の端では決してしないことを示す。
- 参考スコア(独自算出の注目度): 81.15016852963676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The performance of state-of-the-art baselines in the offline RL regime varies
widely over the spectrum of dataset qualities, ranging from "far-from-optimal"
random data to "close-to-optimal" expert demonstrations. We re-implement these
under a fair, unified, and highly factorized framework, and show that when a
given baseline outperforms its competing counterparts on one end of the
spectrum, it never does on the other end. This consistent trend prevents us
from naming a victor that outperforms the rest across the board. We attribute
the asymmetry in performance between the two ends of the quality spectrum to
the amount of inductive bias injected into the agent to entice it to posit that
the behavior underlying the offline dataset is optimal for the task. The more
bias is injected, the higher the agent performs, provided the dataset is
close-to-optimal. Otherwise, its effect is brutally detrimental. Adopting an
advantage-weighted regression template as base, we conduct an investigation
which corroborates that injections of such optimality inductive bias, when not
done parsimoniously, makes the agent subpar in the datasets it was dominant as
soon as the offline policy is sub-optimal. In an effort to design methods that
perform well across the whole spectrum, we revisit the generalized policy
iteration scheme for the offline regime, and study the impact of nine distinct
newly-introduced proposal distributions over actions, involved in proposed
generalization of the policy evaluation and policy improvement update rules. We
show that certain orchestrations strike the right balance and can improve the
performance on one end of the spectrum without harming it on the other end.
- Abstract(参考訳): オフラインのRLレギュレーションにおける最先端のベースラインのパフォーマンスは、"極端から最適"なランダムデータから"極端から最適"な専門家のデモンストレーションまで、データセットの品質の範囲で大きく異なる。
我々は、これらを公正で統一的で高分解能なフレームワークで再実装し、与えられたベースラインがスペクトルの一方の端で競合相手を上回る場合、反対側では決して実行されないことを示す。
この一貫した傾向は、ボード全体の他の部分を上回る勝利を命名することを妨げる。
我々は,品質スペクトルの両端間の性能の非対称性をエージェントに注入された誘導バイアスの量とみなして,オフラインデータセットの動作がタスクに最適であることを示す。
バイアスが注入されるほど、データセットが最適に近い場合、エージェントのパフォーマンスが高くなる。
そうでなければ、その効果は残酷に有害である。
優位重み付き回帰テンプレートをベースとして、このような最適性誘導バイアスの注入がパロニカルに行われなければ、オフラインポリシーが準最適となると、エージェントが支配的なデータセットにサブパールする、という調査を行う。
本研究は、全スペクトルにわたって良好に機能する手法を設計するために、オフライン体制における一般化されたポリシー反復方式を再検討し、政策評価及び政策改善更新規則の一般化にかかわる行動に対する9つの新たな提案分布の影響について検討する。
特定のオーケストレーションが適切なバランスをとっており、一方のスペクトルの性能をもう一方の端で損なうことなく向上させることができることを示す。
関連論文リスト
- Importance-Weighted Offline Learning Done Right [16.4989952150404]
文脈的帯域幅問題におけるオフラインポリシー最適化の問題について検討する。
目標は、準最適行動ポリシーによって収集された決定データのデータセットに基づいて、ほぼ最適ポリシーを学ぶことである。
我々は、citet2015の「単純探索」推定に基づく単純な代替手法が、過去の全ての結果よりもほぼ全ての可能な条件で優れた性能保証を与えることを示した。
論文 参考訳(メタデータ) (2023-09-27T16:42:10Z) - Offline Imitation Learning with Suboptimal Demonstrations via Relaxed
Distribution Matching [109.5084863685397]
オフライン模倣学習(IL)は、環境と相互作用することなく、事前にコンパイルされたデモからパフォーマンスポリシーを学習する機能を提供する。
非対称な f-分割を明示的なサポート正規化に用いたRelaxDICEを提案する。
提案手法は,6つの標準連続制御環境において,最上位のオフライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-03-05T03:35:11Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Pessimism in the Face of Confounders: Provably Efficient Offline
Reinforcement Learning in Partially Observable Markov Decision Processes [105.5082667181805]
半可観測マルコフ決定過程におけるオフライン強化学習(RL)について検討する。
本稿では,UnderlineProxy変数 underlinePessimistic UnderlinePolicy UnderlineOptimization (textttP3O)アルゴリズムを提案する。
textttP3Oは、確立されたデータセットを持つPOMDPのための証明可能な最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-05-26T19:13:55Z) - OptiDICE: Offline Policy Optimization via Stationary Distribution
Correction Estimation [59.469401906712555]
より原理的な方法で過大評価を防止するオフライン強化学習アルゴリズムを提案する。
提案アルゴリズムであるOptiDICEは,最適ポリシーの定常分布補正を直接推定する。
OptiDICEは最先端の手法と競合して動作することを示す。
論文 参考訳(メタデータ) (2021-06-21T00:43:30Z) - Is Pessimism Provably Efficient for Offline RL? [104.00628430454479]
優先度を収集したデータセットに基づいて最適なポリシーを学ぶことを目的としたオフライン強化学習(RL)について検討する。
ペナルティ関数として不確かさ量化器を組み込んだ値反復アルゴリズム(pevi)の悲観的変種を提案する。
論文 参考訳(メタデータ) (2020-12-30T09:06:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。