論文の概要: One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling
- arxiv url: http://arxiv.org/abs/2403.08896v2
- Date: Sat, 1 Jun 2024 02:10:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-04 15:57:11.960930
- Title: One-Shot Averaging for Distributed TD($λ$) Under Markov Sampling
- Title(参考訳): マルコフサンプリングによる分散TD($λ$)のワンショット平均化
- Authors: Haoxing Tian, Ioannis Ch. Paschalidis, Alex Olshevsky,
- Abstract要約: 政策評価の一般的な手法であるTD($lambda$)の線形高速化は、$N$エージェントが政策の$N$倍の速度で評価できるという意味で達成できることを示す。
これは、エージェントがTD($lambda$)を実行し、Markovが独立してサンプリングし、最終ステップ後にのみ結果を平均する手順である。
- 参考スコア(独自算出の注目度): 18.437456273777407
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider a distributed setup for reinforcement learning, where each agent has a copy of the same Markov Decision Process but transitions are sampled from the corresponding Markov chain independently by each agent. We show that in this setting, we can achieve a linear speedup for TD($\lambda$), a family of popular methods for policy evaluation, in the sense that $N$ agents can evaluate a policy $N$ times faster provided the target accuracy is small enough. Notably, this speedup is achieved by ``one shot averaging,'' a procedure where the agents run TD($\lambda$) with Markov sampling independently and only average their results after the final step. This significantly reduces the amount of communication required to achieve a linear speedup relative to previous work.
- Abstract(参考訳): 我々は,各エージェントが同一のマルコフ決定プロセスのコピーを持っているが,各エージェントが対応するマルコフ連鎖から遷移を独立してサンプリングする,強化学習のための分散セットアップを考える。
この設定では、ターゲット精度が十分小さい場合、$N$エージェントがポリシーをN$倍高速に評価できるという意味で、ポリシー評価の一般的な方法のファミリーであるTD($\lambda$)の線形高速化が達成できることを示す。
このスピードアップは、エージェントがTD($\lambda$)を実行し、Markovが個別にサンプリングし、最終ステップ後にのみ結果を平均する手順である ``one shot averaging'' によって達成される。
これにより、以前の作業と比較して線形スピードアップを達成するのに必要な通信量が大幅に削減される。
関連論文リスト
- Cooperative Multi-Agent Constrained Stochastic Linear Bandits [2.099922236065961]
N$エージェントのネットワークがローカルに通信し、期待されるコストを所定の閾値$tau$で保持しながら、全体的な後悔を最小限に抑える。
我々は、textitMA-OPLBと呼ばれる安全な分散上信頼度有界アルゴリズムを提案し、そのT$ラウンドの後悔に基づく高い確率を確立する。
我々の後悔の限界は次数$ MathcalOleft(fracdtau-c_0fraclog(NT)2sqrtNsqrtTlog (1/|lambda|)であることを示す。
論文 参考訳(メタデータ) (2024-10-22T19:34:53Z) - DASA: Delay-Adaptive Multi-Agent Stochastic Approximation [64.32538247395627]
我々は,N$エージェントが並列に動作し,中央サーバと通信することで,一般的な近似問題を高速化することを目的とした設定を考える。
遅延とストラグラーの効果を軽減するために,マルチエージェント近似のための遅延適応アルゴリズムである textttDASA を提案する。
論文 参考訳(メタデータ) (2024-03-25T22:49:56Z) - Accelerating Convergence of Score-Based Diffusion Models, Provably [44.11766377798812]
スコアベース拡散モデルはしばしばサンプリングフェーズで必要とされる広範な機能評価のためにサンプリング速度の低下に悩まされる。
我々は、一般的な決定論的(DDIM)および(DDPM)サンプリングを高速化する、新しいトレーニングフリーアルゴリズムを設計する。
我々の理論は、$ell$-accurate score estimatesを許容し、ターゲット分布に対数凹凸や滑らかさを必要としない。
論文 参考訳(メタデータ) (2024-03-06T17:02:39Z) - Stochastic Approximation Approaches to Group Distributionally Robust Optimization and Beyond [89.72693227960274]
本稿では,グループ分散ロバスト最適化 (GDRO) を,$m$以上の異なる分布をうまく処理するモデルを学習する目的で検討する。
各ラウンドのサンプル数を$m$から1に抑えるため、GDROを2人でプレイするゲームとして、一方のプレイヤーが実行し、他方のプレイヤーが非公開のマルチアームバンディットのオンラインアルゴリズムを実行する。
第2のシナリオでは、最大リスクではなく、平均的最上位k$リスクを最適化し、分散の影響を軽減することを提案する。
論文 参考訳(メタデータ) (2023-02-18T09:24:15Z) - Federated Learning Using Variance Reduced Stochastic Gradient for
Probabilistically Activated Agents [0.0]
本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-10-25T22:04:49Z) - Byzantine-Robust Online and Offline Distributed Reinforcement Learning [60.970950468309056]
本稿では,複数のエージェントが環境を探索し,その経験を中央サーバを通じて伝達する分散強化学習環境について考察する。
エージェントの$alpha$-fractionは敵対的であり、任意の偽情報を報告することができる。
我々は、これらの対立エージェントの存在下で、マルコフ決定プロセスの根底にある準最適政策を特定することを模索する。
論文 参考訳(メタデータ) (2022-06-01T00:44:53Z) - Navigating to the Best Policy in Markov Decision Processes [68.8204255655161]
マルコフ決定過程における純粋探索問題について検討する。
エージェントはアクションを逐次選択し、結果のシステム軌道から可能な限り早くベストを目標とする。
論文 参考訳(メタデータ) (2021-06-05T09:16:28Z) - Denoising Diffusion Implicit Models [117.03720513930335]
DDPMと同様の訓練手順を施した反復的暗黙的確率モデルに対して,拡散暗黙モデル(DDIM)を提案する。
DDIMsは、DDPMsと比較して、壁面時間で10倍から50倍高速な高品質のサンプルを作成できる。
論文 参考訳(メタデータ) (2020-10-06T06:15:51Z) - Sample Complexity of Asynchronous Q-Learning: Sharper Analysis and
Variance Reduction [63.41789556777387]
非同期Q-ラーニングはマルコフ決定過程(MDP)の最適行動値関数(またはQ-関数)を学習することを目的としている。
Q-関数の入出力$varepsilon$-正確な推定に必要なサンプルの数は、少なくとも$frac1mu_min (1-gamma)5varepsilon2+ fract_mixmu_min (1-gamma)$の順である。
論文 参考訳(メタデータ) (2020-06-04T17:51:00Z) - Loop Estimator for Discounted Values in Markov Reward Processes [19.011189395046014]
政策評価ステップは、マルコフポリシーに従って誘導されるマルコフ報酬プロセスからのサンプルで状態の値を推定する。
本稿では,マルコフ報酬過程の再生構造を利用したループ推定法を提案する。
予備的な数値実験では、ループ推定器はTD(k)のようなモデルフリーな手法よりも優れ、モデルベース推定器と競合する。
論文 参考訳(メタデータ) (2020-02-15T01:42:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。