論文の概要: Quantile Filtered Imitation Learning
- arxiv url: http://arxiv.org/abs/2112.00950v1
- Date: Thu, 2 Dec 2021 03:08:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-03 14:33:29.662544
- Title: Quantile Filtered Imitation Learning
- Title(参考訳): 質的フィルタ付き模倣学習
- Authors: David Brandfonbrener, William F. Whitney, Rajesh Ranganath, Joan Bruna
- Abstract要約: 量子フィルタ模倣学習(QFIL)は、オフライン強化学習用に設計されたポリシー改善演算子である。
我々はQFILが機能近似による安全なポリシー改善のステップを提供することを証明した。
QFILはD4RLベンチマークでよく機能します。
- 参考スコア(独自算出の注目度): 49.11859771578969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce quantile filtered imitation learning (QFIL), a novel policy
improvement operator designed for offline reinforcement learning. QFIL performs
policy improvement by running imitation learning on a filtered version of the
offline dataset. The filtering process removes $ s,a $ pairs whose estimated Q
values fall below a given quantile of the pushforward distribution over values
induced by sampling actions from the behavior policy. The definitions of both
the pushforward Q distribution and resulting value function quantile are key
contributions of our method. We prove that QFIL gives us a safe policy
improvement step with function approximation and that the choice of quantile
provides a natural hyperparameter to trade off bias and variance of the
improvement step. Empirically, we perform a synthetic experiment illustrating
how QFIL effectively makes a bias-variance tradeoff and we see that QFIL
performs well on the D4RL benchmark.
- Abstract(参考訳): 本稿では,オフライン強化学習用に設計された新しいポリシー改善オペレータであるqfil(quanttile filtered imitation learning)を紹介する。
QFILは、オフラインデータセットのフィルタバージョンで模倣学習を実行することでポリシー改善を行う。
フィルタリング処理は、振る舞いポリシーからアクションをサンプリングすることによって引き起こされる値に対するプッシュフォワード分布の所定の量子値以下である$s,a $ペアを除去する。
プッシュフォワードQ分布と結果値関数量子化の両方の定義は,本手法の重要な貢献である。
qfilは、関数近似による安全なポリシー改善ステップを提供し、量子量論の選択は、バイアスと改善ステップのばらつきをトレードオフする自然なハイパーパラメータを提供する。
実験的に、QFILがバイアス分散トレードオフを効果的に行う方法を示す合成実験を行い、QFILがD4RLベンチマークでよく動作することを示した。
関連論文リスト
- Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - IDQL: Implicit Q-Learning as an Actor-Critic Method with Diffusion
Policies [72.4573167739712]
Implicit Q-learning(IQL)は、修正されたBellmanバックアップを通じてデータセットアクションのみを使用して、Q-関数をトレーニングする。
この訓練されたQ-関数で表される値が実際にどのポリシーで達成されるのかは不明である。
我々はImplicit Q-learning (IDQL)を導入し、一般のIQL批判とポリシー抽出手法を組み合わせた。
論文 参考訳(メタデータ) (2023-04-20T18:04:09Z) - Offline RL with No OOD Actions: In-Sample Learning via Implicit Value
Regularization [90.9780151608281]
インサンプルラーニング(IQL)は、データサンプルのみを使用して、定量的回帰によってポリシーを改善する。
サンプル内学習のパラダイムがtextitImplicit Value Regularization (IVR) フレームワークの下で生まれることを確認する。
Sparse $Q$-learning (EQL)とExponential $Q$-learning (EQL)の2つの実用的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-28T08:30:01Z) - Q-Pensieve: Boosting Sample Efficiency of Multi-Objective RL Through Memory Sharing of Q-Snapshots [11.533449955841968]
そこで我々は,Q-Pensieveを提案する。Q-Pensieveは,Q-Snapshotのコレクションを格納し,ポリシー更新の方向性を共同で決定する政策改善スキームである。
本稿では,Q-Pensieveが収束保証付きソフトポリシー反復と自然に統合可能であることを示す。
論文 参考訳(メタデータ) (2022-12-06T16:29:47Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Sparse Feature Selection Makes Batch Reinforcement Learning More Sample
Efficient [62.24615324523435]
本稿では,スパース線形関数近似を用いた高次元バッチ強化学習(RL)の統計的解析を行う。
候補となる機能が多数存在する場合,提案手法がバッチRLをより効率的にサンプリングできるという事実に光を当てる。
論文 参考訳(メタデータ) (2020-11-08T16:48:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。