論文の概要: Offline Reinforcement Learning with Implicit Q-Learning
- arxiv url: http://arxiv.org/abs/2110.06169v1
- Date: Tue, 12 Oct 2021 17:05:05 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-13 14:44:45.563979
- Title: Offline Reinforcement Learning with Implicit Q-Learning
- Title(参考訳): 暗黙的q-learningを用いたオフライン強化学習
- Authors: Ilya Kostrikov, Ashvin Nair, Sergey Levine
- Abstract要約: 現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
- 参考スコア(独自算出の注目度): 85.62618088890787
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline reinforcement learning requires reconciling two conflicting aims:
learning a policy that improves over the behavior policy that collected the
dataset, while at the same time minimizing the deviation from the behavior
policy so as to avoid errors due to distributional shift. This trade-off is
critical, because most current offline reinforcement learning methods need to
query the value of unseen actions during training to improve the policy, and
therefore need to either constrain these actions to be in-distribution, or else
regularize their values. We propose an offline RL method that never needs to
evaluate actions outside of the dataset, but still enables the learned policy
to improve substantially over the best behavior in the data through
generalization. The main insight in our work is that, instead of evaluating
unseen actions from the latest policy, we can approximate the policy
improvement step implicitly by treating the state value function as a random
variable, with randomness determined by the action (while still integrating
over the dynamics to avoid excessive optimism), and then taking a state
conditional upper expectile of this random variable to estimate the value of
the best actions in that state. This leverages the generalization capacity of
the function approximator to estimate the value of the best available action at
a given state without ever directly querying a Q-function with this unseen
action. Our algorithm alternates between fitting this upper expectile value
function and backing it up into a Q-function. Then, we extract the policy via
advantage-weighted behavioral cloning. We dub our method implicit Q-learning
(IQL). IQL demonstrates the state-of-the-art performance on D4RL, a standard
benchmark for offline reinforcement learning. We also demonstrate that IQL
achieves strong performance fine-tuning using online interaction after offline
initialization.
- Abstract(参考訳): オフラインの強化学習では、2つの相反する目標:データセットを収集する行動ポリシーよりも改善するポリシーを学習すると同時に、分散シフトによるエラーを避けるために行動ポリシーからの逸脱を最小化する。
このトレードオフは、現在のオフライン強化学習手法のほとんどが、ポリシーを改善するためにトレーニング中に見当たらないアクションの値をクエリする必要があるため、これらのアクションを分散に制限するか、あるいはその値を正規化する必要があるため、非常に重要である。
本稿では,データセット以外の動作を評価する必要のないオフラインRL手法を提案する。
私たちの研究の主な洞察は、最新のポリシーから見いだせないアクションを評価する代わりに、アクションによって決定されるランダム性(過度の楽観主義を避けるためにダイナミクス上で統合されているにもかかわらず)で、状態値関数を乱数変数として扱い、その状態における最善のアクションの値を推定して、ポリシー改善ステップを暗黙的に近似することができるということです。
これは関数近似器の一般化能力を利用して、この目に見えないアクションでQ関数を直接問い合わせることなく、与えられた状態における最良のアクションの値を推定する。
我々のアルゴリズムはこの上限値関数を適合させ、Q関数にバックアップする。
そこで我々は,有利な行動クローニングを通じてポリシーを抽出する。
暗黙的なQ-ラーニング (IQL) を行う。
IQLは、オフライン強化学習の標準ベンチマークであるD4RLの最先端パフォーマンスを実証している。
また、IQLはオフライン初期化後にオンラインインタラクションを使用して、強力なパフォーマンスの微調整を実現することを示す。
関連論文リスト
- Offline Reinforcement Learning with On-Policy Q-Function Regularization [57.09073809901382]
ヒストリーデータセットと所望のポリシー間の分布シフトによって引き起こされる(潜在的に破滅的な)外挿誤差に対処する。
正規化により推定Q-関数を利用する2つのアルゴリズムを提案し、D4RLベンチマークに強い性能を示すことを示す。
論文 参考訳(メタデータ) (2023-07-25T21:38:08Z) - Confidence-Conditioned Value Functions for Offline Reinforcement
Learning [86.59173545987984]
本稿では,任意の信頼度を高い確率で同時に学習するベルマンバックアップ方式を提案する。
理論的には、学習した値関数が真値の任意の信頼度で保守的な推定値を生成することを示す。
論文 参考訳(メタデータ) (2022-12-08T23:56:47Z) - Mildly Conservative Q-Learning for Offline Reinforcement Learning [63.2183622958666]
オフライン強化学習(RL)は、環境と継続的に対話することなく、静的なログ付きデータセットから学習するタスクを定義する。
既存のアプローチ、目に見えない行動のペナルティ化、行動方針の規則化は悲観的すぎる。
我々は,適切な擬似Q値を割り当てることで,OODアクションを積極的に訓練するマイルリー保守的Q-ラーニング(MCQ)を提案する。
論文 参考訳(メタデータ) (2022-06-09T19:44:35Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - BRAC+: Improved Behavior Regularized Actor Critic for Offline
Reinforcement Learning [14.432131909590824]
オフライン強化学習は、以前に収集したデータセットを使用して効果的なポリシーをトレーニングすることを目的としている。
標準的なオフ・ポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(探索されていない)アクションの値を過大評価する傾向がある。
動作の規則化によるオフライン強化学習を改善し,BRAC+を提案する。
論文 参考訳(メタデータ) (2021-10-02T23:55:49Z) - Conservative Q-Learning for Offline Reinforcement Learning [106.05582605650932]
CQLは既存のオフラインRLメソッドよりも大幅に優れており、多くの場合、ファイナルリターンの2~5倍高いポリシを学習しています。
理論的には、CQLは現在のポリシーの価値の低いバウンダリを生成し、理論的改善保証を伴う政策学習手順に組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-06-08T17:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。