論文の概要: Direct Gradient Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2308.01170v1
- Date: Wed, 2 Aug 2023 14:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:41:15.495050
- Title: Direct Gradient Temporal Difference Learning
- Title(参考訳): 直接勾配時間差学習
- Authors: Xiaochi Qian, Shangtong Zhang
- Abstract要約: オフ・ポリシー・ラーニングは、強化学習エージェントが実行されていないポリシーについて反実的に推論することを可能にする。
関数近似とブートストラップを組み合わせると不安定になる可能性がある。
本稿では,マルコフデータストリームに2つのサンプルを単純に使用することで,二重サンプリング問題を解決する手法を提案する。
- 参考スコア(独自算出の注目度): 23.297137490591382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning enables a reinforcement learning (RL) agent to reason
counterfactually about policies that are not executed and is one of the most
important ideas in RL. It, however, can lead to instability when combined with
function approximation and bootstrapping, two arguably indispensable
ingredients for large-scale reinforcement learning. This is the notorious
deadly triad. Gradient Temporal Difference (GTD) is one powerful tool to solve
the deadly triad. Its success results from solving a doubling sampling issue
indirectly with weight duplication or Fenchel duality. In this paper, we
instead propose a direct method to solve the double sampling issue by simply
using two samples in a Markovian data stream with an increasing gap. The
resulting algorithm is as computationally efficient as GTD but gets rid of
GTD's extra weights. The only price we pay is a logarithmically increasing
memory as time progresses. We provide both asymptotic and finite sample
analysis, where the convergence rate is on-par with the canonical on-policy
temporal difference learning. Key to our analysis is a novel refined
discretization of limiting ODEs.
- Abstract(参考訳): オフ・ポリシー・ラーニングは、強化学習(rl)エージェントが実行されないポリシーについて反事実的に判断することが可能であり、rlで最も重要なアイデアの1つである。
しかし、機能近似とブートストラップを組み合わせると不安定になり、大規模な強化学習に欠かせない2つの要素が組み合わされる。
これは悪名高い 致命的なトリアドだ
GTD(Gradient Temporal difference)は、致命的な三位一体を解決する強力なツールである。
その成功は、重みの重複やフェンシェル双対性で間接的に二重サンプリング問題を解くことによる。
本稿では,マルコフデータストリーム内の2つのサンプルをギャップを増加させることで,二重サンプリング問題を解くための直接的手法を提案する。
結果として得られるアルゴリズムはGTDと同じくらい計算効率が良いが、GTDの余分な重みを排除できる。
時間の経過とともにメモリを対数的に増やすだけなのです。
漸近的および有限なサンプル分析を行い, 収束率は正準オンポリティカル時間差学習とほぼ同値である。
我々の分析の鍵は、制限ODEの斬新な離散化である。
関連論文リスト
- Statistical Efficiency of Distributional Temporal Difference Learning [24.03281329962804]
我々は、分布時間差分学習(CTD)と量子時間差分学習(QTD)の有限サンプル性能を解析する。
$gamma$-discounted infinite-horizon decision process に対して、NTD では $tildeOleft(frac1varepsilon2p (1-gamma)2pright)$ が、高い確率で $varepsilon$-optimal estimator を達成するために必要であることを示す。
我々はヒルベルト空間における新しいフリードマンの不等式を確立し、これは独立な関心事である。
論文 参考訳(メタデータ) (2024-03-09T06:19:53Z) - Function Value Learning: Adaptive Learning Rates Based on the Polyak
Stepsize and Function Splitting in ERM [6.542289202349586]
我々は、経験的リスク最小化(experiical risk minimization)としても知られる有限項和問題に焦点をあてる。
最初に、サンプル損失値を利用する、$textttSPS_+$と呼ばれる理想化された適応メソッドを詳述する。
次に、最適な損失値が徐々に学習される$textttSPS_+$の変種である$textttFUVAL$を開発する。
論文 参考訳(メタデータ) (2023-07-26T22:12:31Z) - Revisiting Weighted Strategy for Non-stationary Parametric Bandits [82.1942459195896]
本稿では,非定常パラメトリックバンディットの重み付け戦略を再考する。
より単純な重みに基づくアルゴリズムを生成する改良された分析フレームワークを提案する。
我々の新しいフレームワークは、他のパラメトリックバンディットの後悔の限界を改善するのに使える。
論文 参考訳(メタデータ) (2023-03-05T15:11:14Z) - Near-Optimal Adversarial Reinforcement Learning with Switching Costs [43.895798638743784]
本稿では, スイッチングコストを伴い, 効率の良いRLアルゴリズムの開発方法について述べる。
我々の下限は、敵RLのコストを切り替えるという根本的な課題のため、最も達成された後悔はもはや達成不可能であることを示している。
本稿では,遷移関数が知られているときの下位境界に一致することを後悔する2つの新しいスイッチング・リデュースアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-02-08T23:41:29Z) - Tractable Optimality in Episodic Latent MABs [75.17357040707347]
我々は、エージェントが時間ステップ$H$のエピソードのために環境と対話する、M$遅延コンテキストを持つマルチアームバンディット問題を考える。
エピソードの長さによっては、学習者は遅れた文脈を正確に見積もることができないかもしれない。
我々は、$O(textttpoly(A) + textttpoly(M,H)min(M,H))$インタラクションを用いて、ほぼ最適なポリシーを確実に学習する手順を設計する。
論文 参考訳(メタデータ) (2022-10-05T22:53:46Z) - Provably Efficient Offline Reinforcement Learning with Trajectory-Wise
Reward [66.81579829897392]
我々はPessimistic vAlue iteRaTionとrEward Decomposition (PARTED)という新しいオフライン強化学習アルゴリズムを提案する。
PartEDは、最小2乗ベースの報酬再分配を通じて、ステップごとのプロキシ報酬に軌道を分解し、学習したプロキシ報酬に基づいて悲観的な値を実行する。
私たちの知る限りでは、PartEDは、トラジェクティブな報酬を持つ一般のMDPにおいて、証明可能な効率のよい最初のオフラインRLアルゴリズムである。
論文 参考訳(メタデータ) (2022-06-13T19:11:22Z) - Fast Rates for Nonparametric Online Learning: From Realizability to
Learning in Games [36.969021834291745]
本稿では,仮説クラスの逐次的脂肪散乱次元の観点から,ほぼ最適誤差を導出する固有学習アルゴリズムを提案する。
この結果は、適切な学習者が準最適誤り境界を達成できるかどうかという疑問に答える。
実数値(回帰)設定では、最適誤り境界は不適切な学習者にさえ知られていなかった。
論文 参考訳(メタデータ) (2021-11-17T05:24:21Z) - Minimal Expected Regret in Linear Quadratic Control [79.81807680370677]
オンライン学習アルゴリズムを考案し、その期待された後悔を保証します。
当時のこの後悔は、$A$と$B$が未知の場合、$widetildeO((d_u+d_x)sqrtd_xT)$によって上界(i)となる。
論文 参考訳(メタデータ) (2021-09-29T14:07:21Z) - Randomized Exploration for Reinforcement Learning with General Value
Function Approximation [122.70803181751135]
本稿では,ランダム化最小二乗値反復(RLSVI)アルゴリズムに着想を得たモデルレス強化学習アルゴリズムを提案する。
提案アルゴリズムは,スカラーノイズを用いたトレーニングデータを簡易に摂動させることにより,探索を促進する。
我々はこの理論を、既知の困難な探査課題にまたがる実証的な評価で補完する。
論文 参考訳(メタデータ) (2021-06-15T02:23:07Z) - An Analysis of Frame-skipping in Reinforcement Learning [13.680685626360903]
多くのAtariコンソールゲームでは、強化学習アルゴリズムが$d > 1$で実行する場合、かなり優れたポリシーを提供する。
我々は、同じアクションの$d$長のシーケンスに対するこの選択の一般的な制限である「アクション-繰り返し」に焦点を当てる。
この損失は、より小さなタスクの地平線によって学習がもたらされた利益によって相殺される可能性がある。
論文 参考訳(メタデータ) (2021-02-07T04:59:09Z) - Upper Confidence Primal-Dual Reinforcement Learning for CMDP with
Adversarial Loss [145.54544979467872]
マルコフ決定過程(CMDP)に対するオンライン学習の検討
本稿では,遷移モデルから標本化した軌跡のみを必要とする,新しいEmphupper confidence primal-dualアルゴリズムを提案する。
我々の分析では、ラグランジュ乗算過程の新たな高確率ドリフト解析を、高信頼強化学習の記念後悔解析に組み入れている。
論文 参考訳(メタデータ) (2020-03-02T05:02:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。