論文の概要: Adaptive Tree Backup Algorithms for Temporal-Difference Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2206.01896v1
- Date: Sat, 4 Jun 2022 03:44:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 17:05:03.618392
- Title: Adaptive Tree Backup Algorithms for Temporal-Difference Reinforcement
Learning
- Title(参考訳): 時間差強化学習のための適応木バックアップアルゴリズム
- Authors: Brett Daley and Isaac Chan
- Abstract要約: sigma=0$の選択はバイアスを増大させることなく分散を最小化することを示す。
エージェントが経験を積むにつれて重み付きバックアップが進化する適応木バックアップ(ATB)手法を提案する。
本実験は, 適応戦略が, 固定値や時間アニール値の$sigma$-valueに依存するよりも有効であることを示す。
- 参考スコア(独自算出の注目度): 2.28438857884398
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Q($\sigma$) is a recently proposed temporal-difference learning method that
interpolates between learning from expected backups and sampled backups. It has
been shown that intermediate values for the interpolation parameter $\sigma \in
[0,1]$ perform better in practice, and therefore it is commonly believed that
$\sigma$ functions as a bias-variance trade-off parameter to achieve these
improvements. In our work, we disprove this notion, showing that the choice of
$\sigma=0$ minimizes variance without increasing bias. This indicates that
$\sigma$ must have some other effect on learning that is not fully understood.
As an alternative, we hypothesize the existence of a new trade-off: larger
$\sigma$-values help overcome poor initializations of the value function, at
the expense of higher statistical variance. To automatically balance these
considerations, we propose Adaptive Tree Backup (ATB) methods, whose weighted
backups evolve as the agent gains experience. Our experiments demonstrate that
adaptive strategies can be more effective than relying on fixed or
time-annealed $\sigma$-values.
- Abstract(参考訳): Q($\sigma$)は、最近提案された時間差学習手法で、期待されるバックアップからの学習とサンプルバックアップの間の補間を行う。
補間パラメータ $\sigma \in [0,1]$ の中間値は実際より良くなることが示されているので、これらの改善を達成するために$\sigma$関数はバイアス分散トレードオフパラメータであると考えられている。
我々の研究では、この概念を否定し、$\sigma=0$ の選択はバイアスを増加させずに分散を最小化することを示した。
これは、$\sigma$が完全に理解されていない学習に他の効果を持たなければならないことを示している。
代案として、我々は新しいトレードオフの存在を仮定する: より大きな$\sigma$-valuesは、より高い統計的分散を犠牲にして、値関数の初期化の貧弱さを克服するのに役立つ。
エージェントが経験を積むにつれて重み付きバックアップが進化する適応木バックアップ(adaptive tree backup, atb)法を提案する。
提案実験により, 適応戦略は, 固定あるいは時間アニールの$\sigma$-valuesに依存するよりも有効であることを示す。
関連論文リスト
- Agnostic Smoothed Online Learning [5.167069404528051]
本稿では,$mu$の事前知識を必要とせずに,オンライン学習を円滑に行うためのサブ線形後悔を保証するアルゴリズムを提案する。
R-Coverは、次元$d$を持つ関数クラスに対して、適応的後悔$tilde O(sqrtdT/sigma)$を持つ。
論文 参考訳(メタデータ) (2024-10-07T15:25:21Z) - Policy Gradient with Active Importance Sampling [55.112959067035916]
政策勾配法(PG法)はISの利点を大いに生かし、以前に収集したサンプルを効果的に再利用することができる。
しかし、ISは歴史的サンプルを再重み付けするための受動的ツールとしてRLに採用されている。
我々は、政策勾配のばらつきを減らすために、サンプルを収集する最良の行動ポリシーを模索する。
論文 参考訳(メタデータ) (2024-05-09T09:08:09Z) - Online non-parametric likelihood-ratio estimation by Pearson-divergence
functional minimization [55.98760097296213]
iid 観測のペア $(x_t sim p, x'_t sim q)$ が時間の経過とともに観測されるような,オンラインな非パラメトリック LRE (OLRE) のための新しいフレームワークを提案する。
本稿では,OLRE法の性能に関する理論的保証と,合成実験における実証的検証について述べる。
論文 参考訳(メタデータ) (2023-11-03T13:20:11Z) - Variance-Aware Regret Bounds for Stochastic Contextual Dueling Bandits [53.281230333364505]
本稿では, 一般化線形モデル(GLM)から, デュエルアームのバイナリ比較を生成するコンテキストデュエルバンド問題について検討する。
本稿では,SupLinUCB型アルゴリズムを提案する。このアルゴリズムは,計算効率と分散を意識したリセットバウンド$tilde Obig(dsqrtsum_t=1Tsigma_t2 + dbig)$を提案する。
我々の後悔は、比較が決定論的である場合の直感的な期待と自然に一致し、アルゴリズムは$tilde O(d)$ regretにのみ悩まされる。
論文 参考訳(メタデータ) (2023-10-02T08:15:52Z) - Improved Regret for Efficient Online Reinforcement Learning with Linear
Function Approximation [69.0695698566235]
線形関数近似による強化学習と,コスト関数の逆変化について検討した。
本稿では,未知のダイナミクスと帯域幅フィードバックの一般設定に挑戦する,計算効率のよいポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-01-30T17:26:39Z) - Efficient Conditionally Invariant Representation Learning [41.320360597120604]
Conditional Independence Regression CovariancE (CIRCE)
条件付き特徴依存の尺度は、特徴学習の各ステップに複数の回帰を必要とする。
実験では,従来のベンチマーク手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-16T18:39:32Z) - The Projected Covariance Measure for assumption-lean variable significance testing [3.8936058127056357]
単純だが一般的なアプローチは、線形モデルを指定し、次に$X$の回帰係数が 0 でないかどうかをテストすることである。
条件付き平均独立性のモデルフリーなnullをテストする問題、すなわち条件付き平均の$Y$$$X$と$Z$は$X$に依存しない。
本稿では,加法モデルやランダムフォレストなど,柔軟な非パラメトリックあるいは機械学習手法を活用可能な,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-03T17:55:50Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Adaptive Stochastic Gradient Descent for Fast and
Communication-Efficient Distributed Learning [33.590006101071765]
マスタが分散降下(SGD)アルゴリズムを$n$ワーカー上で実行したい場合について検討する。
本研究では,分散SGDの適応バージョンが非適応実装と比較して少ない時間で低い誤差値に達することを示す。
論文 参考訳(メタデータ) (2022-08-04T10:57:25Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。