論文の概要: Distributed TD(0) with Almost No Communication
- arxiv url: http://arxiv.org/abs/2104.07855v1
- Date: Fri, 16 Apr 2021 02:21:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-19 14:16:17.238431
- Title: Distributed TD(0) with Almost No Communication
- Title(参考訳): ほとんど通信のない分散TD(0)
- Authors: Rui Liu and Alex Olshevsky
- Abstract要約: 線形関数近似を用いた分散td(0)の新しい非漸近解析法を提案する。
我々のアプローチは"ワンショット平均化"に依存しており、$N$エージェントはTD(0)のローカルコピーを実行し、最後に1回だけ結果を平均する。
- 参考スコア(独自算出の注目度): 13.578454059496847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We provide a new non-asymptotic analysis of distributed TD(0) with linear
function approximation. Our approach relies on "one-shot averaging," where $N$
agents run local copies of TD(0) and average the outcomes only once at the very
end. We consider two models: one in which the agents interact with an
environment they can observe and whose transitions depends on all of their
actions (which we call the global state model), and one in which each agent can
run a local copy of an identical Markov Decision Process, which we call the
local state model.
In the global state model, we show that the convergence rate of our
distributed one-shot averaging method matches the known convergence rate of
TD(0). By contrast, the best convergence rate in the previous literature showed
a rate which, in the worst case, underperformed the non-distributed version by
$O(N^3)$ in terms of the number of agents $N$. In the local state model, we
demonstrate a version of the linear time speedup phenomenon, where the
convergence time of the distributed process is a factor of $N$ faster than the
convergence time of TD(0). As far as we are aware, this is the first result
rigorously showing benefits from parallelism for temporal difference methods.
- Abstract(参考訳): 線形関数近似を用いた分散td(0)の新しい非漸近解析法を提案する。
我々のアプローチは"ワンショット平均化"に依存しており、$N$エージェントはTD(0)のローカルコピーを実行し、最後に1回だけ結果を平均する。
エージェントが観察可能な環境と相互作用し、その遷移がすべてのアクションに依存している場合(グローバルステートモデルと呼ぶ)と、各エージェントが同じマルコフ決定プロセスのローカルコピーを実行する場合(ローカルステートモデルと呼ぶ)の2つのモデルを考える。
大域状態モデルでは,分散一発平均化法の収束速度が既知の td(0) の収束率と一致することを示す。
対照的に、以前の文献における最良の収束率は、最悪の場合、非分散バージョンがエージェント数で$n$という値で$o(n^3)$の低値を示した。
局所状態モデルでは、分散プロセスの収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを示す。
認識している限り、これは時間差法に対する並列性からの利点を厳格に示す最初の結果である。
関連論文リスト
- DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Convergence Analysis of Decentralized ASGD [1.8710230264817358]
本稿では,ノード間の部分同期や制限的ネットワークトポロジを必要としない分散非同期SGD(DASGD)に対する新しい収束速度解析法を提案する。
我々の収束証明は、固定段数と任意の非滑らかで同質でL字型の目的函数を仮定する。
論文 参考訳(メタデータ) (2023-09-07T14:50:31Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Distributed TD(0) with Almost No Communication [15.321579527891457]
線形関数近似を用いた時間差分学習の非漸近解析法を提案する。
分散過程の収束時間がTD(0)の収束時間よりもN$の係数である線形時間高速化現象のバージョンを実証する。
論文 参考訳(メタデータ) (2023-05-25T17:00:46Z) - Sharper Convergence Guarantees for Asynchronous SGD for Distributed and
Federated Learning [77.22019100456595]
通信周波数の異なる分散計算作業者のトレーニングアルゴリズムを示す。
本研究では,より厳密な収束率を$mathcalO!!(sigma2-2_avg!)とする。
また,不均一性の項は,作業者の平均遅延によっても影響されることを示した。
論文 参考訳(メタデータ) (2022-06-16T17:10:57Z) - Cooperative Online Learning in Stochastic and Adversarial MDPs [50.62439652257712]
我々は、協調的オンライン学習と敵対的マルコフ決定過程(MDP)について研究する。
各エピソードでは、$m$エージェントが同時にMDPと対話し、個人の後悔を最小限に抑えるために情報を共有する。
協調強化学習(RL)を非フレッシュランダム性, あるいは敵対的MDPで検討したのは, 初めてである。
論文 参考訳(メタデータ) (2022-01-31T12:32:11Z) - Distributed gradient-based optimization in the presence of dependent
aperiodic communication [4.34720256795424]
反復分散最適化アルゴリズムは、グローバルな目的を最小化/最大化するために、時間とともに相互に通信する複数のエージェントを含む。
信頼できない通信網の存在下では、受信したデータの鮮度を測定するAOI( Age-of-Information)は、大きくなり、アルゴリズムの収束を妨げる可能性がある。
AoIプロセスに付随する確率変数が有限な第一モーメントを持つ確率変数に支配されている場合、収束が保証されることを示す。
論文 参考訳(メタデータ) (2022-01-27T06:44:04Z) - A Law of Iterated Logarithm for Multi-Agent Reinforcement Learning [3.655021726150368]
マルチエージェント強化学習(MARL: Multi-Agent Reinforcement Learning)では、複数のエージェントが共通の環境と相互作用し、シーケンシャルな意思決定において共有問題を解く。
我々は、MARLで有用な分散非線形近似スキームの族を反復する新しい法則を導出する。
論文 参考訳(メタデータ) (2021-10-27T08:01:17Z) - Fast Rates for the Regret of Offline Reinforcement Learning [69.23654172273085]
無限水平割引決定プロセス(MDP)における固定行動ポリシーによって生成されたオフラインデータからの強化学習の後悔について検討する。
最適品質関数 $Q*$ に対する任意の推定が与えられたとき、定義するポリシーの後悔は、$Q*$-estimate の点収束率の指数によって与えられる速度で収束することを示す。
論文 参考訳(メタデータ) (2021-01-31T16:17:56Z) - A Unified Theory of Decentralized SGD with Changing Topology and Local
Updates [70.9701218475002]
分散通信方式の統一収束解析を導入する。
いくつかの応用に対して普遍収束率を導出する。
私たちの証明は弱い仮定に依存している。
論文 参考訳(メタデータ) (2020-03-23T17:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。