論文の概要: Fully Asynchronous Policy Evaluation in Distributed Reinforcement
Learning over Networks
- arxiv url: http://arxiv.org/abs/2003.00433v3
- Date: Fri, 22 Jan 2021 16:45:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-27 12:56:17.512348
- Title: Fully Asynchronous Policy Evaluation in Distributed Reinforcement
Learning over Networks
- Title(参考訳): ネットワーク上の分散強化学習における完全非同期政策評価
- Authors: Xingyu Sha, Jiaqi Zhang, Keyou You, Kaiqing Zhang and Tamer Ba\c{s}ar
- Abstract要約: 本稿では,有向ピアツーピアネットワーク上での分散強化学習(DisRL)のポリシー評価問題に対する非同期手法を提案する。
ネットワークの他のノードを待つことなく、各ノードは隣人からの(おそらく遅れた)情報を使用して、いつでもローカルに値関数を更新できる。
- 参考スコア(独自算出の注目度): 14.636457985379746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper proposes a \emph{fully asynchronous} scheme for the policy
evaluation problem of distributed reinforcement learning (DisRL) over directed
peer-to-peer networks. Without waiting for any other node of the network, each
node can locally update its value function at any time by using (possibly
delayed) information from its neighbors. This is in sharp contrast to the
gossip-based scheme where a pair of nodes concurrently update. Though the fully
asynchronous setting involves a difficult multi-timescale decision problem, we
design a novel stochastic average gradient (SAG) based distributed algorithm
and develop a push-pull augmented graph approach to prove its exact convergence
at a linear rate of $\mathcal{O}(c^k)$ where $c\in(0,1)$ and $k$ increases by
one no matter on which node updates. Finally, numerical experiments validate
that our method speeds up linearly with respect to the number of nodes, and is
robust to straggler nodes.
- Abstract(参考訳): 本稿では,有向ピアツーピアネットワーク上での分散強化学習(disrl)のポリシー評価問題に対する \emph{fully asynchronous}スキームを提案する。
ネットワークの他のノードを待つことなく、各ノードは隣人からの(おそらく遅れた)情報を使用して、いつでもローカルに値関数を更新できる。
これは、一対のノードが同時に更新されるゴシップベースのスキームとは対照的である。
完全非同期設定は、マルチ時間スケールの意思決定が困難な問題であるが、新しい確率的平均勾配(SAG)ベースの分散アルゴリズムを設計し、その正確な収束を線形レート$\mathcal{O}(c^k)$, $c\in(0,1)$, $k$で証明するためのプッシュプル拡張グラフアプローチを開発する。
最後に,数値実験により,ノード数に対して線形に高速化し,ストラグラーノードに頑健であることを検証した。
関連論文リスト
- Sparse Decomposition of Graph Neural Networks [20.768412002413843]
本稿では,集約中に含まれるノード数を削減する手法を提案する。
線形変換された特徴の重み付け和を用いてノード表現の近似を学習し、スパース分解によりこれを実現できる。
提案手法は推論高速化のために設計された他のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-25T17:52:16Z) - A Learning Based Scheme for Fair Timeliness in Sparse Gossip Networks [41.53961199878831]
我々は、ソースの情報を追跡する$n$ノードからなるゴシップネットワークを考える。
ソースはPoissonの到着プロセスで情報を更新し、ネットワーク内のノードに更新を送信する。
一部のノードはソースを非常に時間的に追跡できるが、一部のノードはバージョンに遅れることが多い。
論文 参考訳(メタデータ) (2023-10-02T17:55:17Z) - NodeFormer: A Scalable Graph Structure Learning Transformer for Node
Classification [70.51126383984555]
本稿では,任意のノード間のノード信号を効率的に伝搬する全ペアメッセージパッシング方式を提案する。
効率的な計算は、カーナライズされたGumbel-Softmax演算子によって実現される。
グラフ上のノード分類を含む様々なタスクにおいて,本手法の有望な有効性を示す実験を行った。
論文 参考訳(メタデータ) (2023-06-14T09:21:15Z) - Temporal Aggregation and Propagation Graph Neural Networks for Dynamic
Representation [67.26422477327179]
時間グラフは連続時間を通してノード間の動的相互作用を示す。
本研究では,周辺地域全体と時間的グラフ畳み込みの新たな手法を提案する。
提案するTAP-GNNは,予測性能とオンライン推論遅延の両面で,既存の時間グラフ手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2023-04-15T08:17:18Z) - Online Centralized Non-parametric Change-point Detection via Graph-based
Likelihood-ratio Estimation [77.81487285123147]
グラフの各ノードを、ほぼリアルタイムで同期して観測されるデータストリームを生成するようにします。
変更ポイント$tau$では、変更はノードのサブセット$C$で発生し、関連するノードストリームの確率分布に影響を与える。
本稿では,ポストチェンジとノードストリームの事前変更分布の確率比の直接推定に基づいて,$tau$を検出して$C$をローカライズするカーネルベースの新しい手法を提案する。
論文 参考訳(メタデータ) (2023-01-08T10:15:24Z) - Communication-Efficient Adam-Type Algorithms for Distributed Data Mining [93.50424502011626]
我々はスケッチを利用した新しい分散Adam型アルゴリズムのクラス(例:SketchedAMSGrad)を提案する。
我々の新しいアルゴリズムは、反復毎に$O(frac1sqrtnT + frac1(k/d)2 T)$の高速収束率を$O(k log(d))$の通信コストで達成する。
論文 参考訳(メタデータ) (2022-10-14T01:42:05Z) - ResNorm: Tackling Long-tailed Degree Distribution Issue in Graph Neural
Networks via Normalization [80.90206641975375]
本稿では,正規化によるGNNの性能向上に焦点をあてる。
グラフ中のノード次数の長期分布を調べることにより、GNNの新しい正規化法を提案する。
ResNormの$scale$操作は、尾ノードの精度を向上させるために、ノード単位の標準偏差(NStd)分布を再設定する。
論文 参考訳(メタデータ) (2022-06-16T13:49:09Z) - Decentralized Multi-Task Stochastic Optimization With Compressed
Communications [22.31884634659446]
本稿では,ノードにおけるローカル情報可用性の2つのモデルに対して,アルゴリズムを開発し,性能バウンダリを求める。
グローバルな最小値からの逸脱と制約の違反は$mathcalO(T-frac12)$と$mathcalO(T-frac14)$によって上界されることを示す。
論文 参考訳(メタデータ) (2021-12-23T05:54:42Z) - Distributed stochastic optimization with large delays [59.95552973784946]
大規模最適化問題を解決する最も広く使われている手法の1つは、分散非同期勾配勾配(DASGD)である。
DASGDは同じ遅延仮定の下で大域的最適実装モデルに収束することを示す。
論文 参考訳(メタデータ) (2021-07-06T21:59:49Z) - A hybrid variance-reduced method for decentralized stochastic non-convex
optimization [15.447966950703947]
textttGTHSGDアルゴリズムは、グローバルな勾配を追跡するためにネットワークを実装している。
textttGTHSGDは、必要なエラートレランス$epsilon$が十分小さいときに、ネットワークの複雑さを$O(n-1)$にします。
論文 参考訳(メタデータ) (2021-02-12T20:13:05Z) - On the Communication Latency of Wireless Decentralized Learning [12.977865337365856]
我々は、半径$R$の円形領域内に位置する$n$ノードからなる無線ネットワークを考える。
ネットワーク間の勾配交換を可能にするために、各ノードは隣接するノードの集合とのみ通信すると仮定する。
ネットワーク全体のリンク上の1ラウンドのグラデーションを交換する通信遅延は、$mathcalOleft(fracn2-3betabetalog nright)$である。
論文 参考訳(メタデータ) (2020-02-10T20:10:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。