論文の概要: Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2301.11321v2
- Date: Wed, 31 May 2023 05:13:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:30:58.629009
- Title: Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning
- Title(参考訳): オフポリシー強化学習のための軌道認識適性トレース
- Authors: Brett Daley, Martha White, Christopher Amato, Marlos C. Machado
- Abstract要約: 多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
- 参考スコア(独自算出の注目度): 44.50394347326546
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning from multistep returns is crucial for sample-efficient
reinforcement learning, but counteracting off-policy bias without exacerbating
variance is challenging. Classically, off-policy bias is corrected in a
per-decision manner: past temporal-difference errors are re-weighted by the
instantaneous Importance Sampling (IS) ratio after each action via eligibility
traces. Many off-policy algorithms rely on this mechanism, along with differing
protocols for cutting the IS ratios to combat the variance of the IS estimator.
Unfortunately, once a trace has been fully cut, the effect cannot be reversed.
This has led to the development of credit-assignment strategies that account
for multiple past experiences at a time. These trajectory-aware methods have
not been extensively analyzed, and their theoretical justification remains
uncertain. In this paper, we propose a multistep operator that can express both
per-decision and trajectory-aware methods. We prove convergence conditions for
our operator in the tabular setting, establishing the first guarantees for
several existing methods as well as many new ones. Finally, we introduce
Recency-Bounded Importance Sampling (RBIS), which leverages trajectory
awareness to perform robustly across $\lambda$-values in an off-policy control
task.
- Abstract(参考訳): 多段階回帰からのオフポリシー学習はサンプル効率のよい強化学習には不可欠であるが、分散を悪化させることなくオフポリシーバイアスを相殺することは困難である。
伝統的に、オフ・ポリシーのバイアスは分解ごとに補正され、過去の時間差誤差は、適性トレースによる各アクションの後に瞬時重要度サンプリング(is)比率によって再重み付けされる。
多くの非政治アルゴリズムは、IS比をカットしてIS推定器のばらつきに対処するための異なるプロトコルとともに、このメカニズムに依存している。
残念なことに、一度トレースが完全にカットされると、その効果は逆転できない。
これは、一度に複数の過去の経験を説明するクレジット割り当て戦略の開発につながった。
これらの軌道認識法は広くは分析されておらず、理論上の正当性は不明である。
本稿では,分解法と軌道認識法の両方を表現できるマルチステップ演算子を提案する。
表の設定において演算子の収束条件を証明し、既存のいくつかのメソッドと多くの新しいメソッドに対する最初の保証を確立する。
最後に,オフポリシー制御タスクで$\lambda$値に対してロバストに実行するために,軌跡認識を利用するrecency-bounded importance sampling (rbis)を導入する。
関連論文リスト
- Batch Ensemble for Variance Dependent Regret in Stochastic Bandits [41.95653110232677]
オンライン強化学習(RL:Reinforcement Learning)において、探索と搾取を効果的に行うことが重要な課題の1つだ。
実践的なアンサンブル法に着想を得た本研究では,マルチアーマッド・バンディット(MAB)のほぼ最適後悔を実現する,単純かつ新しいバッチアンサンブル方式を提案する。
提案アルゴリズムは, バッチ数という1つのパラメータしか持たず, 損失のスケールや分散といった分布特性に依存しない。
論文 参考訳(メタデータ) (2024-09-13T06:40:56Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - A Simple Solution for Offline Imitation from Observations and Examples
with Possibly Incomplete Trajectories [122.11358440078581]
オフラインの模倣は、任意のインタラクションがコストがかかり、専門家のアクションが利用できない現実世界のシナリオで有用である。
本研究では,タスク固有の専門的状態とタスクに依存しない非専門的状態-アクションペアのみを利用できるMPPを解決するために,観察から学習するトラジェクトリ・アウェア・ラーニング(TAILO)を提案する。
論文 参考訳(メタデータ) (2023-11-02T15:41:09Z) - Taming Multi-Agent Reinforcement Learning with Estimator Variance
Reduction [12.94372063457462]
分散実行(CT-DE)による集中トレーニングは、多くの主要なマルチエージェント強化学習(MARL)アルゴリズムの基礎となっている。
特定の状態における共同行動の単一のサンプルから学ぶことに依存しているため、これは重大な欠点に悩まされる。
本稿では,アクター・クリティカルなMARL法に対応する拡張ツールを提案する。
論文 参考訳(メタデータ) (2022-09-02T13:44:00Z) - Actor Prioritized Experience Replay [0.0]
優先度付き体験再生(PER)では、エージェントは時間差誤差(TD)に比例した非一様確率でサンプリングされた遷移から学習することができる。
本稿では,アクター・クリティカルな手法に対する新しい経験リプレイ・サンプリング・フレームワークを紹介し,安定性の問題やPERの実証的性能の低下の背景にある最近の知見についても考察する。
我々の理論的主張を検証し、導入した手法が競合するアプローチを著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-09-01T15:27:46Z) - Improving the Efficiency of Off-Policy Reinforcement Learning by
Accounting for Past Decisions [20.531576904743282]
オフ政治推定バイアスは、決定ごとに補正される。
Tree BackupやRetraceといったオフポリティクスアルゴリズムはこのメカニズムに依存している。
任意の過去のトレースを許可するマルチステップ演算子を提案する。
論文 参考訳(メタデータ) (2021-12-23T00:07:28Z) - Greedy Multi-step Off-Policy Reinforcement Learning [14.720255341733413]
そこで本研究では,ブートストラップ値の最大値を異なるステップでグリード的に取得するブートストラップ手法を提案する。
実験の結果,提案手法は信頼性が高く,実装が容易で,最先端の性能を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-23T14:32:20Z) - Continuous Doubly Constrained Batch Reinforcement Learning [93.23842221189658]
環境とのオンラインインタラクションではなく、固定されたオフラインデータセットのみを使用して効果的なポリシーを学ぶバッチRLのアルゴリズムを提案する。
バッチRLにおける制限されたデータは、トレーニングデータに不十分に表現された状態/動作の値推定に固有の不確実性をもたらす。
この分散を減らすための政策制約と、過度に楽観的な見積もりを妨げる価値制約という2つの簡単な罰則によってこの問題を軽減することを提案する。
論文 参考訳(メタデータ) (2021-02-18T08:54:14Z) - Optimal Off-Policy Evaluation from Multiple Logging Policies [77.62012545592233]
我々は,複数のロギングポリシからオフ政治評価を行い,それぞれが一定のサイズ,すなわち階層化サンプリングのデータセットを生成する。
複数ロガーのOPE推定器は,任意のインスタンス,すなわち効率のよいインスタンスに対して最小分散である。
論文 参考訳(メタデータ) (2020-10-21T13:43:48Z) - DDPG++: Striving for Simplicity in Continuous-control Off-Policy
Reinforcement Learning [95.60782037764928]
過大評価バイアスが制御される限り、単純な決定論的政策勾配は著しく機能することを示す。
第二に、非政治的なアルゴリズムの典型であるトレーニングの不安定性を、欲張りのポリシー更新ステップに向ける。
第3に、確率推定文学におけるアイデアは、リプレイバッファからの重要サンプル遷移や、性能劣化を防ぐためのポリシー更新に利用できることを示す。
論文 参考訳(メタデータ) (2020-06-26T20:21:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。