論文の概要: Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions
- arxiv url: http://arxiv.org/abs/2112.12281v1
- Date: Thu, 23 Dec 2021 00:07:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-24 16:36:33.096040
- Title: Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions
- Title(参考訳): 過去の意思決定の会計によるオフポリシー強化学習の効率化
- Authors: Brett Daley and Christopher Amato
- Abstract要約: オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
- 参考スコア(独自算出の注目度): 20.531576904743282
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning from multistep returns is crucial for sample-efficient
reinforcement learning, particularly in the experience replay setting now
commonly used with deep neural networks. Classically, off-policy estimation
bias is corrected in a per-decision manner: past temporal-difference errors are
re-weighted by the instantaneous Importance Sampling (IS) ratio (via
eligibility traces) after each action. Many important off-policy algorithms
such as Tree Backup and Retrace rely on this mechanism along with differing
protocols for truncating ("cutting") the ratios ("traces") to counteract the
excessive variance of the IS estimator. Unfortunately, cutting traces on a
per-decision basis is not necessarily efficient; once a trace has been cut
according to local information, the effect cannot be reversed later,
potentially resulting in the premature truncation of estimated returns and
slower learning. In the interest of motivating efficient off-policy algorithms,
we propose a multistep operator that permits arbitrary past-dependent traces.
We prove that our operator is convergent for policy evaluation, and for optimal
control when targeting greedy-in-the-limit policies. Our theorems establish the
first convergence guarantees for many existing algorithms including Truncated
IS, Non-Markov Retrace, and history-dependent TD($\lambda$). Our theoretical
results also provide guidance for the development of new algorithms that
jointly consider multiple past decisions for better credit assignment and
faster learning.
- Abstract(参考訳): マルチステップリターンからのオフポリシー学習はサンプル効率のよい強化学習に不可欠であり、特にディープニューラルネットワークで一般的に使用されるエクスペリエンスリプレイ設定において重要である。
過去の時間差誤差は、各アクションの後に(可視性トレースによる)即時重要度サンプリング(IS)比によって再重み付けされる。
ツリーバックアップやリトレースのような多くの重要なオフポリシーアルゴリズムは、is推定器の過度なばらつきに対処するために、(トレース)比率を切り離すための異なるプロトコルとともに、このメカニズムに依存している。
局所的な情報に従ってトレースがカットされると、その効果は後戻りできないため、予測されたリターンの早期停止と学習の遅さにつながる可能性がある。
効率的なオフポリシーアルゴリズムの動機付けを目的として,任意の過去依存トレースを許容するマルチステップ演算子を提案する。
当社のオペレータは,政策評価に収束し,かつgreedy-in-the-limitポリシーをターゲットとした最適制御を行う。
我々の定理は、Trncated IS, Non-Markov Retrace, and history-dependent TD($\lambda$)を含む多くの既存のアルゴリズムに対する最初の収束保証を確立する。
提案手法は,信用分担と学習の高速化のために,複数の過去の決定を共同で検討する新しいアルゴリズムの開発のためのガイダンスを提供する。
関連論文リスト
- Iteratively Refined Behavior Regularization for Offline Reinforcement
Learning [57.10922880400715]
本稿では,保守的政策反復に基づく行動規則化を大幅に強化する新しいアルゴリズムを提案する。
行動規則化に使用される基準ポリシーを反復的に洗練することにより、保守的な政策更新は徐々に改善される。
D4RLベンチマークの実験結果から,本手法は従来のタスクのベースラインよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2023-06-09T07:46:24Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Scaling Laws Beyond Backpropagation [64.0476282000118]
因果デコーダのみの変換器を効率的に訓練するための直接フィードバックアライメントの有効性について検討した。
DFAはバックプロパゲーションよりも効率的なスケーリングを提供していないことが分かりました。
論文 参考訳(メタデータ) (2022-10-26T10:09:14Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Conservative Distributional Reinforcement Learning with Safety
Constraints [22.49025480735792]
安全探索は、期待される長期コストが制約されるマルコフ決定問題とみなすことができる。
従来の非政治アルゴリズムは、制約付き最適化問題をラグランジアン緩和手法を導入して、対応する制約なしの双対問題に変換する。
本稿では,ポストリオ政策最適化による保守的分布最大化という,非政治的強化学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-18T19:45:43Z) - Greedy Multi-step Off-Policy Reinforcement Learning [14.720255341733413]
そこで本研究では,ブートストラップ値の最大値を異なるステップでグリード的に取得するブートストラップ手法を提案する。
実験の結果,提案手法は信頼性が高く,実装が容易で,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-23T14:32:20Z) - Variance Penalized On-Policy and Off-Policy Actor-Critic [60.06593931848165]
本稿では,平均値と変動値の両方を含むパフォーマンス基準を最適化する,オン・ポリティィおよびオフ・ポリティィ・アクター・クリティカルなアルゴリズムを提案する。
提案手法は, アクタ批判的かつ事前の分散-ペナライゼーションベースラインに匹敵するだけでなく, リターンのばらつきが低いトラジェクトリも生成する。
論文 参考訳(メタデータ) (2021-02-03T10:06:16Z) - Neural Pruning via Growing Regularization [82.9322109208353]
プルーニングの2つの中心的な問題:プルーニングのスケジュールと重み付けの重要度だ。
具体的には, ペナルティ要因が増大するL2正規化変種を提案し, 精度が著しく向上することを示した。
提案アルゴリズムは,構造化プルーニングと非構造化プルーニングの両方において,大規模データセットとネットワークの実装が容易かつスケーラブルである。
論文 参考訳(メタデータ) (2020-12-16T20:16:28Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。