論文の概要: Importance Sampling Placement in Off-Policy Temporal-Difference Methods
- arxiv url: http://arxiv.org/abs/2203.10172v1
- Date: Fri, 18 Mar 2022 21:54:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-22 17:19:27.108349
- Title: Importance Sampling Placement in Off-Policy Temporal-Difference Methods
- Title(参考訳): オフポリティ・テンポラル・ディファレンス法における重要サンプリング配置
- Authors: Eric Graves and Sina Ghiassian
- Abstract要約: 政治以外の強化学習アルゴリズムが、単にTDターゲットではなく、TDエラー全体を補正する方法を示す。
実験では、この微妙な修正によってパフォーマンスが改善されている。
- 参考スコア(独自算出の注目度): 3.04585143845864
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A central challenge to applying many off-policy reinforcement learning
algorithms to real world problems is the variance introduced by importance
sampling. In off-policy learning, the agent learns about a different policy
than the one being executed. To account for the difference importance sampling
ratios are often used, but can increase variance in the algorithms and reduce
the rate of learning. Several variations of importance sampling have been
proposed to reduce variance, with per-decision importance sampling being the
most popular. However, the update rules for most off-policy algorithms in the
literature depart from per-decision importance sampling in a subtle way; they
correct the entire TD error instead of just the TD target. In this work, we
show how this slight change can be interpreted as a control variate for the TD
target, reducing variance and improving performance. Experiments over a wide
range of algorithms show this subtle modification results in improved
performance.
- Abstract(参考訳): 多くのオフ・ポリシー強化学習アルゴリズムを現実世界の問題に適用する上での中心的な課題は、重要度サンプリングによってもたらされる分散である。
政治以外の学習では、エージェントは実行されているものとは異なるポリシーを学ぶ。
差分重要度サンプリング比はよく用いられるが,アルゴリズムのばらつきを増大させ,学習率を低下させることができる。
ばらつきを減らすために重要サンプリングのバリエーションがいくつか提案されており、決定重要サンプリングが最も人気がある。
しかし、文献におけるほとんどの非政治アルゴリズムの更新ルールは、決定単位の重要度を微妙にサンプリングすることから離れ、TDターゲットだけでなくTDエラー全体を修正している。
本稿では,このわずかな変化をtd目標の制御変数として解釈し,分散を低減し,性能を向上させる方法を示す。
幅広いアルゴリズムの実験では、この微妙な修正により性能が向上した。
関連論文リスト
- Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Direct Gradient Temporal Difference Learning [23.297137490591382]
オフ・ポリシー・ラーニングは、強化学習エージェントが実行されていないポリシーについて反実的に推論することを可能にする。
関数近似とブートストラップを組み合わせると不安定になる可能性がある。
本稿では,マルコフデータストリームに2つのサンプルを単純に使用することで,二重サンプリング問題を解決する手法を提案する。
論文 参考訳(メタデータ) (2023-08-02T14:16:22Z) - Sample Dropout: A Simple yet Effective Variance Reduction Technique in
Deep Policy Optimization [18.627233013208834]
重要度サンプリングを用いることで, 目的推定値に高いばらつきが生じる可能性が示唆された。
そこで本研究では, サンプルの偏差が高すぎる場合に, サンプルをドロップアウトすることで, 推定分散を束縛する, サンプルドロップアウトと呼ばれる手法を提案する。
論文 参考訳(メタデータ) (2023-02-05T04:44:35Z) - Stable Target Field for Reduced Variance Score Estimation in Diffusion
Models [5.9115407007859755]
拡散モデルは、固定された前方拡散過程を反転させてサンプルを生成する。
このような分散の源泉は、中間雑音分散スケールの取り扱いにあると論じる。
より安定したトレーニングターゲットとして重み付けされた条件スコアを計算するために使用する参照バッチを組み込むことにより、この問題を修復することを提案する。
論文 参考訳(メタデータ) (2023-02-01T18:57:01Z) - Trajectory-Aware Eligibility Traces for Off-Policy Reinforcement
Learning [44.50394347326546]
多段階リターンからのオフ政治学習は、サンプル効率の強化学習に不可欠である。
オフ政治バイアスは、決定ごとに修正されるが、トレースが完全にカットされると、その効果は逆転できない。
本稿では,多段階演算子を提案する。
論文 参考訳(メタデータ) (2023-01-26T18:57:41Z) - Do We Need to Penalize Variance of Losses for Learning with Label Noise? [91.38888889609002]
ノイズラベルを用いた学習では,差分を増大させる必要がある。
ラベルノイズ遷移行列を利用することで、正規化器は損失の分散を低減することができる。
実験的に,損失の分散を増大させることにより,合成データセットと実世界のデータセットのベースラインの一般化能力を大幅に向上させる。
論文 参考訳(メタデータ) (2022-01-30T06:19:08Z) - Why Do Self-Supervised Models Transfer? Investigating the Impact of
Invariance on Downstream Tasks [79.13089902898848]
自己教師付き学習は、非競合画像上での表現学習の強力なパラダイムである。
コンピュータビジョンにおける異なるタスクは、異なる(不変の)分散を符号化する機能を必要とすることを示す。
論文 参考訳(メタデータ) (2021-11-22T18:16:35Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Variance-Reduced Off-Policy Memory-Efficient Policy Search [61.23789485979057]
政治政策の最適化は強化学習において難しい問題である。
オフポリシーアルゴリズムはメモリ効率が高く、オフポリシーサンプルから学ぶことができる。
論文 参考訳(メタデータ) (2020-09-14T16:22:46Z) - Change Point Detection in Time Series Data using Autoencoders with a
Time-Invariant Representation [69.34035527763916]
変化点検出(CPD)は、時系列データにおける急激な特性変化を見つけることを目的としている。
近年のCDD法は、深層学習技術を用いる可能性を示したが、信号の自己相関統計学におけるより微妙な変化を識別する能力に欠けることが多い。
我々は、新しい損失関数を持つオートエンコーダに基づく手法を用い、使用済みオートエンコーダは、CDDに適した部分的な時間不変表現を学習する。
論文 参考訳(メタデータ) (2020-08-21T15:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。