論文の概要: Distributed TD(0) with Almost No Communication
- arxiv url: http://arxiv.org/abs/2305.16246v1
- Date: Thu, 25 May 2023 17:00:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-26 13:42:57.235689
- Title: Distributed TD(0) with Almost No Communication
- Title(参考訳): ほとんど通信のない分散TD(0)
- Authors: Rui Liu, Alex Olshevsky
- Abstract要約: 線形関数近似を用いた時間差分学習の非漸近解析法を提案する。
分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。
- 参考スコア(独自算出の注目度): 15.321579527891457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a new non-asymptotic analysis of distributed temporal difference
learning with linear function approximation. Our approach relies on ``one-shot
averaging,'' where $N$ agents run identical local copies of the TD(0) method
and average the outcomes only once at the very end. We demonstrate a version of
the linear time speedup phenomenon, where the convergence time of the
distributed process is a factor of $N$ faster than the convergence time of
TD(0). This is the first result proving benefits from parallelism for temporal
difference methods.
- Abstract(参考訳): 線形関数近似を用いた分散時間差学習の非漸近的解析を提案する。
このアプローチは、$N$エージェントがTD(0)メソッドの同じローカルコピーを実行し、最後に1回だけ結果を平均する '`one-shot averaging,'' に依存する。
分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。
これは時間差法に対する並列性からの利点を証明する最初の結果である。
関連論文リスト
- Finite Time Analysis of Temporal Difference Learning for Mean-Variance in a Discounted MDP [1.0923877073891446]
割引報酬マルコフ決定プロセスにおける分散政策評価の問題点を考察する。
本稿では,線形関数近似(LFA)を用いた時間差分型学習アルゴリズムについて述べる。
平均二乗の意味で(i) を保持する有限標本境界と、(ii) テールイテレート平均化を用いる場合の高い確率を導出する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Non-asymptotic Convergence of Discrete-time Diffusion Models: New Approach and Improved Rate [49.97755400231656]
我々はDT拡散過程下での分布のかなり大きなクラスに対する収束保証を確立する。
次に、明示的なパラメータ依存を持つ分布の多くの興味深いクラスに結果を専門化します。
そこで本研究では,新しい加速型サンプリング器を提案し,対応する正則サンプリング器の収束率を,全てのシステムパラメータに対して桁違いに向上することを示す。
論文 参考訳(メタデータ) (2024-02-21T16:11:47Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - Semi-supervised Learning of Partial Differential Operators and Dynamical
Flows [68.77595310155365]
本稿では,超ネットワーク解法とフーリエニューラル演算子アーキテクチャを組み合わせた新しい手法を提案する。
本手法は, 1次元, 2次元, 3次元の非線形流体を含む様々な時間発展PDEを用いて実験を行った。
その結果、新しい手法は、監督点の時点における学習精度を向上し、任意の中間時間にその解を補間できることを示した。
論文 参考訳(メタデータ) (2022-07-28T19:59:14Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - PER-ETD: A Polynomially Efficient Emphatic Temporal Difference Learning
Method [49.93717224277131]
PEriodically Restarted-ETD(PEriodically Restarted-ETD)と呼ばれる新しいETD手法を提案する。
PER-ETD は ETD と同じ所望の固定点に収束するが, 指数的なサンプルの複雑性は向上する。
論文 参考訳(メタデータ) (2021-10-13T17:40:12Z) - Distributed TD(0) with Almost No Communication [13.578454059496847]
線形関数近似を用いた分散td(0)の新しい非漸近解析法を提案する。
我々のアプローチは"ワンショット平均化"に依存しており、$N$エージェントはTD(0)のローカルコピーを実行し、最後に1回だけ結果を平均する。
論文 参考訳(メタデータ) (2021-04-16T02:21:11Z) - Temporal Difference Learning as Gradient Splitting [15.321579527891457]
勾配降下の収束証明は時間差学習にほぼ冗長に適用可能であることを示す。
値関数の平均を推定するTD学習における小さな変化は、1/(1-ガンマ)$1の乗算項のみを無作為に無視する収束時間を持つことを示す。
論文 参考訳(メタデータ) (2020-10-27T22:50:39Z) - Adaptive Temporal Difference Learning with Linear Function Approximation [29.741034258674205]
本稿では,強化学習における政策評価タスクにおける時間差(TD)学習アルゴリズムを再検討する。
線形関数近似を用いたTD(0)学習アルゴリズムの確率収束適応型射影多様体を開発した。
いくつかの標準強化学習タスクにおいて,AdaTD(0)とAdaTD($lambda$)の性能を評価する。
論文 参考訳(メタデータ) (2020-02-20T02:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。