論文の概要: An Empirical Comparison of Off-policy Prediction Learning Algorithms in
the Four Rooms Environment
- arxiv url: http://arxiv.org/abs/2109.05110v1
- Date: Fri, 10 Sep 2021 21:15:41 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-14 16:04:18.594833
- Title: An Empirical Comparison of Off-policy Prediction Learning Algorithms in
the Four Rooms Environment
- Title(参考訳): 4室環境におけるオフポリシー予測学習アルゴリズムの実証的比較
- Authors: Sina Ghiassian and Richard S. Sutton
- Abstract要約: 我々は,11の非政治予測学習アルゴリズムと2つの小さなタスクに対する線形関数近似を経験的に比較した。
アルゴリズムの性能は、重要サンプリング比によって引き起こされるばらつきに強く影響される。
強調的なTD($lambda$)は、他のアルゴリズムよりもエラーが少ない傾向にあるが、場合によってはよりゆっくりと学習することもある。
- 参考スコア(独自算出の注目度): 9.207173776826403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many off-policy prediction learning algorithms have been proposed in the past
decade, but it remains unclear which algorithms learn faster than others. We
empirically compare 11 off-policy prediction learning algorithms with linear
function approximation on two small tasks: the Rooms task, and the High
Variance Rooms task. The tasks are designed such that learning fast in them is
challenging. In the Rooms task, the product of importance sampling ratios can
be as large as $2^{14}$ and can sometimes be two. To control the high variance
caused by the product of the importance sampling ratios, step size should be
set small, which in turn slows down learning. The High Variance Rooms task is
more extreme in that the product of the ratios can become as large as
$2^{14}\times 25$. This paper builds upon the empirical study of off-policy
prediction learning algorithms by Ghiassian and Sutton (2021). We consider the
same set of algorithms as theirs and employ the same experimental methodology.
The algorithms considered are: Off-policy TD($\lambda$), five Gradient-TD
algorithms, two Emphatic-TD algorithms, Tree Backup($\lambda$),
Vtrace($\lambda$), and ABTD($\zeta$). We found that the algorithms' performance
is highly affected by the variance induced by the importance sampling ratios.
The data shows that Tree Backup($\lambda$), Vtrace($\lambda$), and
ABTD($\zeta$) are not affected by the high variance as much as other algorithms
but they restrict the effective bootstrapping parameter in a way that is too
limiting for tasks where high variance is not present. We observed that
Emphatic TD($\lambda$) tends to have lower asymptotic error than other
algorithms, but might learn more slowly in some cases. We suggest algorithms
for practitioners based on their problem of interest, and suggest approaches
that can be applied to specific algorithms that might result in substantially
improved algorithms.
- Abstract(参考訳): 過去10年間、多くのオフポリシー予測学習アルゴリズムが提案されてきたが、どのアルゴリズムが他のアルゴリズムよりも速く学習するかは不明だ。
本研究では,11の非政治予測学習アルゴリズムと2つの小さなタスクであるRoomsタスクとHigh Variance Roomsタスクの線形関数近似を比較した。
タスクは、速く学習するように設計されています。
ルームタスクでは、重要サンプリング比率の積は2^{14}$で、2つになることもある。
重要サンプリング率の積による高いばらつきを制御するためには、ステップサイズを小さくして学習を遅くする必要がある。
高分散室の仕事は、比の積が 2^{14}\times 25$ となるという点において、より極端である。
本稿では,ghiassian and sutton (2021) によるオフポリシー予測学習アルゴリズムの実証的研究を基礎とする。
我々は,同じアルゴリズム群をそれらのものとみなし,同じ実験手法を用いる。
考慮されているアルゴリズムは、オフポリシーTD($\lambda$)、5つのグラディエントTDアルゴリズム、2つの強調TDアルゴリズム、ツリーバックアップ($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)である。
その結果,アルゴリズムの性能は,重要サンプリング比による分散の影響が大きいことがわかった。
データは、Tree Backup($\lambda$)、Vtrace($\lambda$)、ABTD($\zeta$)が他のアルゴリズムほど高い分散の影響を受けていないことを示しているが、高い分散が存在しないタスクでは制限されない方法で効果的なブートストラップパラメータを制限する。
強調的td($\lambda$)は他のアルゴリズムよりも漸近的誤差が低い傾向があるが、場合によってはよりゆっくりと学習する可能性がある。
興味のある問題に基づいた実践者のためのアルゴリズムを提案し,アルゴリズムが大幅に改善される可能性のある特定のアルゴリズムに適用可能なアプローチを提案する。
関連論文リスト
- The Limits of Assumption-free Tests for Algorithm Performance [6.7171902258864655]
与えられたモデリングタスクにおいてアルゴリズムはどの程度うまく機能し、どのアルゴリズムが最善を尽くすか?
一方、特定のトレーニングデータセットに対して$A$を実行して生成された特定の適合モデルが$n$であるのか?
論文 参考訳(メタデータ) (2024-02-12T03:19:30Z) - Provably Efficient Reinforcement Learning via Surprise Bound [66.15308700413814]
本稿では,一般値関数近似を用いた効率の良い強化学習アルゴリズムを提案する。
本アルゴリズムは, 線形設定と疎高次元線形設定の両方に適用した場合に, 合理的な後悔境界を達成できる。
論文 参考訳(メタデータ) (2023-02-22T20:21:25Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - Momentum-Based Policy Gradient with Second-Order Information [40.51117836892182]
本稿では,2次情報を勾配降下に組み込んだSHARP法を提案する。
従来の研究と異なり,提案アルゴリズムでは,分散還元プロセスの利点を損なうような重要サンプリングを必要としない。
提案手法が様々な制御課題に対して有効であることを示すとともに,実際の技術状況に対する優位性を示す。
論文 参考訳(メタデータ) (2022-05-17T11:56:50Z) - Provably Faster Algorithms for Bilevel Optimization [54.83583213812667]
バイレベル最適化は多くの重要な機械学習アプリケーションに広く適用されている。
両レベル最適化のための2つの新しいアルゴリズムを提案する。
両アルゴリズムが$mathcalO(epsilon-1.5)$の複雑さを達成し,既存のアルゴリズムを桁違いに上回っていることを示す。
論文 参考訳(メタデータ) (2021-06-08T21:05:30Z) - An Empirical Comparison of Off-policy Prediction Learning Algorithms on
the Collision Task [9.207173776826403]
他の政策に従えば、ある政策のデータからある政策の価値関数を学習するオフ政治予測は、強化学習において最も困難なサブプロブレムの1つだ。
本稿では,線形関数近似を用いた11個の非政治学習アルゴリズムによる経験的結果を示す。
論文 参考訳(メタデータ) (2021-06-02T03:45:43Z) - Correcting Momentum with Second-order Information [50.992629498861724]
最適積に$O(epsilon)$epsilon点を求める非臨界最適化のための新しいアルゴリズムを開発した。
我々は、さまざまな大規模ディープラーニングベンチマークとアーキテクチャで結果を検証する。
論文 参考訳(メタデータ) (2021-03-04T19:01:20Z) - Towards Optimally Efficient Tree Search with Deep Learning [76.64632985696237]
本稿では,線形モデルから信号整数を推定する古典整数最小二乗問題について検討する。
問題はNPハードであり、信号処理、バイオインフォマティクス、通信、機械学習といった様々な応用でしばしば発生する。
本稿では, 深いニューラルネットワークを用いて, 単純化されたメモリバウンドA*アルゴリズムの最適推定を推定し, HATSアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-01-07T08:00:02Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z) - Learning Sparse Classifiers: Continuous and Mixed Integer Optimization
Perspectives [10.291482850329892]
混合整数計画法(MIP)は、(最適に) $ell_0$-正規化回帰問題を解くために用いられる。
数分で5万ドルの機能を処理できる正確なアルゴリズムと、$papprox6$でインスタンスに対処できる近似アルゴリズムの2つのクラスを提案する。
さらに,$ell$-regularizedsに対する新しい推定誤差境界を提案する。
論文 参考訳(メタデータ) (2020-01-17T18:47:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。