論文の概要: Direct Gradient Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2308.01170v1
- Date: Wed, 2 Aug 2023 14:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-03 12:41:15.495050
- Title: Direct Gradient Temporal Difference Learning
- Title(参考訳): 直接勾配時間差学習
- Authors: Xiaochi Qian, Shangtong Zhang
- Abstract要約: オフ・ポリシー・ラーニングは、強化学習エージェントが実行されていないポリシーについて反実的に推論することを可能にする。
関数近似とブートストラップを組み合わせると不安定になる可能性がある。
本稿では,マルコフデータストリームに2つのサンプルを単純に使用することで,二重サンプリング問題を解決する手法を提案する。
- 参考スコア(独自算出の注目度): 23.297137490591382
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Off-policy learning enables a reinforcement learning (RL) agent to reason
counterfactually about policies that are not executed and is one of the most
important ideas in RL. It, however, can lead to instability when combined with
function approximation and bootstrapping, two arguably indispensable
ingredients for large-scale reinforcement learning. This is the notorious
deadly triad. Gradient Temporal Difference (GTD) is one powerful tool to solve
the deadly triad. Its success results from solving a doubling sampling issue
indirectly with weight duplication or Fenchel duality. In this paper, we
instead propose a direct method to solve the double sampling issue by simply
using two samples in a Markovian data stream with an increasing gap. The
resulting algorithm is as computationally efficient as GTD but gets rid of
GTD's extra weights. The only price we pay is a logarithmically increasing
memory as time progresses. We provide both asymptotic and finite sample
analysis, where the convergence rate is on-par with the canonical on-policy
temporal difference learning. Key to our analysis is a novel refined
discretization of limiting ODEs.
- Abstract(参考訳): オフ・ポリシー・ラーニングは、強化学習(rl)エージェントが実行されないポリシーについて反事実的に判断することが可能であり、rlで最も重要なアイデアの1つである。
しかし、機能近似とブートストラップを組み合わせると不安定になり、大規模な強化学習に欠かせない2つの要素が組み合わされる。
これは悪名高い 致命的なトリアドだ
GTD(Gradient Temporal difference)は、致命的な三位一体を解決する強力なツールである。
その成功は、重みの重複やフェンシェル双対性で間接的に二重サンプリング問題を解くことによる。
本稿では,マルコフデータストリーム内の2つのサンプルをギャップを増加させることで,二重サンプリング問題を解くための直接的手法を提案する。
結果として得られるアルゴリズムはGTDと同じくらい計算効率が良いが、GTDの余分な重みを排除できる。
時間の経過とともにメモリを対数的に増やすだけなのです。
漸近的および有限なサンプル分析を行い, 収束率は正準オンポリティカル時間差学習とほぼ同値である。
我々の分析の鍵は、制限ODEの斬新な離散化である。
関連論文リスト
- Primal-Dual Continual Learning: Stability and Plasticity through
Lagrange Multipliers [93.17404959573146]
制約付き最適化問題を直接実行することは可能かつ有益であることを示す。
メモリベースのメソッドでは、以前のタスクからのサンプルの小さなサブセットをリプレイバッファに格納できる。
準最適境界を導出し、様々な連続学習ベンチマークで理論的結果を実証的に相関させる。
論文 参考訳(メタデータ) (2023-09-29T21:23:27Z) - Efficient Diffusion Policies for Offline Reinforcement Learning [85.73757789282212]
Diffsuion-QLは、拡散モデルでポリシーを表現することによってオフラインRLの性能を大幅に向上させる。
これら2つの課題を克服するために,効率的な拡散政策(EDP)を提案する。
EDPは、サンプリングチェーンの実行を避けるために、トレーニング中の腐敗したアクションからアクションを構築する。
論文 参考訳(メタデータ) (2023-05-31T17:55:21Z) - Scaling up Stochastic Gradient Descent for Non-convex Optimisation [5.908471365011942]
本稿では,共有並列計算問題に対する新しいアプローチを提案する。
2つの戦略を統一されたフレームワークに組み合わせることで、DPSGDはより良い取引計算フレームワークになります。
深層学習(DRL)問題と深層学習(DRL)問題(アドバンテージアクター - A2C)についてDPSGDにより潜在ゲインを達成できる。
論文 参考訳(メタデータ) (2022-10-06T13:06:08Z) - Importance Sampling Placement in Off-Policy Temporal-Difference Methods [3.04585143845864]
政治以外の強化学習アルゴリズムが、単にTDターゲットではなく、TDエラー全体を補正する方法を示す。
実験では、この微妙な修正によってパフォーマンスが改善されている。
論文 参考訳(メタデータ) (2022-03-18T21:54:09Z) - Deterministic and Discriminative Imitation (D2-Imitation): Revisiting
Adversarial Imitation for Sample Efficiency [61.03922379081648]
本稿では,敵対的トレーニングやmin-max最適化を必要としない非政治的サンプル効率の手法を提案する。
実験の結果, D2-Imitation はサンプル効率の向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-12-11T19:36:19Z) - Simple Stochastic and Online Gradient DescentAlgorithms for Pairwise
Learning [65.54757265434465]
ペアワイズ学習(Pairwise learning)とは、損失関数がペアインスタンスに依存するタスクをいう。
オンライン降下(OGD)は、ペアワイズ学習でストリーミングデータを処理する一般的なアプローチである。
本稿では,ペアワイズ学習のための手法について,シンプルでオンラインな下降を提案する。
論文 参考訳(メタデータ) (2021-11-23T18:10:48Z) - Parameter-free Gradient Temporal Difference Learning [3.553493344868414]
強化学習のためのグラデーションに基づく時間差アルゴリズムを開発。
当社のアルゴリズムは線形時間で動作し、GTD2のものを$log$ファクタまで一致させる高確率収束を保証します。
本実験は,本手法が完全に調整されたベースラインに対して高い予測性能を保ちながら,チューニングを一切行わないことを示す。
論文 参考訳(メタデータ) (2021-05-10T06:07:05Z) - On the Practicality of Differential Privacy in Federated Learning by
Tuning Iteration Times [51.61278695776151]
フェデレートラーニング(FL)は、分散クライアント間で機械学習モデルを協調的にトレーニングする際のプライバシ保護でよく知られている。
最近の研究では、naive flは勾配リーク攻撃の影響を受けやすいことが指摘されている。
ディファレンシャルプライバシ(dp)は、勾配漏洩攻撃を防御するための有望な対策として現れる。
論文 参考訳(メタデータ) (2021-01-11T19:43:12Z) - Single-Timescale Stochastic Nonconvex-Concave Optimization for Smooth
Nonlinear TD Learning [145.54544979467872]
本稿では,各ステップごとに1つのデータポイントしか必要としない2つの単一スケールシングルループアルゴリズムを提案する。
本研究の結果は, 同時一次および二重側収束の形で表される。
論文 参考訳(メタデータ) (2020-08-23T20:36:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。