論文の概要: Distributed Value Function Approximation for Collaborative Multi-Agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2006.10443v3
- Date: Sat, 17 Apr 2021 20:00:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 13:40:44.212081
- Title: Distributed Value Function Approximation for Collaborative Multi-Agent
Reinforcement Learning
- Title(参考訳): 協調的マルチエージェント強化学習のための分散値関数近似
- Authors: Milos S. Stankovic, Marko Beko, Srdjan S. Stankovic
- Abstract要約: 本稿では,多エージェントオフポリシー学習のための分散勾配に基づく時間差分アルゴリズムを提案する。
提案するアルゴリズムは,その形式,可視性トレースの定義,時間スケールの選択,コンセンサス反復を組み込む方法などによって異なる。
より弱い情報構造制約の下で時間差分アルゴリズムにどのように適用できるかを示す。
- 参考スコア(独自算出の注目度): 2.7071541526963805
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper we propose several novel distributed gradient-based temporal
difference algorithms for multi-agent off-policy learning of linear
approximation of the value function in Markov decision processes with strict
information structure constraints, limiting inter-agent communications to small
neighborhoods. The algorithms are composed of: 1) local parameter updates based
on single-agent off-policy gradient temporal difference learning algorithms,
including eligibility traces with state dependent parameters, and 2) linear
stochastic time varying consensus schemes, represented by directed graphs. The
proposed algorithms differ by their form, definition of eligibility traces,
selection of time scales and the way of incorporating consensus iterations. The
main contribution of the paper is a convergence analysis based on the general
properties of the underlying Feller-Markov processes and the stochastic time
varying consensus model. We prove, under general assumptions, that the
parameter estimates generated by all the proposed algorithms weakly converge to
the corresponding ordinary differential equations (ODE) with precisely defined
invariant sets. It is demonstrated how the adopted methodology can be applied
to temporal-difference algorithms under weaker information structure
constraints. The variance reduction effect of the proposed algorithms is
demonstrated by formulating and analyzing an asymptotic stochastic differential
equation. Specific guidelines for communication network design are provided.
The algorithms' superior properties are illustrated by characteristic
simulation results.
- Abstract(参考訳): 本稿では,情報構造制約が厳密なマルコフ決定過程における値関数の線形近似のマルチエージェントオフポリシー学習のための分散勾配に基づく時間差分アルゴリズムを提案する。
アルゴリズムは以下の通りである。
1) 状態依存パラメータによる可視性トレースを含む、単一エージェントの非政治的勾配時間差学習アルゴリズムに基づく局所パラメータ更新
2) 有向グラフで表される線形確率時間変化のコンセンサススキーム。
提案するアルゴリズムは,その形式,可視性トレースの定義,時間スケールの選択,コンセンサス反復を組み込む方法などによって異なる。
この論文の主な貢献は、基礎となるフェラー・マルコフ過程の一般的な性質と確率時間変化コンセンサスモデルに基づく収束解析である。
一般の仮定の下では、提案された全てのアルゴリズムによって生成されるパラメータ推定が、正確に定義された不変集合を持つ対応する常微分方程式(ODE)に弱収束することが証明される。
本手法は,より弱い情報構造制約下での時間微分アルゴリズムに適用できることを示す。
漸近確率微分方程式の定式化と解析により,提案アルゴリズムの分散低減効果を実証した。
通信ネットワーク設計の具体的なガイドラインが提供される。
アルゴリズムの優れた特性は特性シミュレーションの結果によって示される。
関連論文リスト
- RHiOTS: A Framework for Evaluating Hierarchical Time Series Forecasting Algorithms [0.393259574660092]
RHiOTSは、階層的な時系列予測モデルとアルゴリズムを実世界のデータセット上で堅牢性を評価するように設計されている。
RHiOTSは、複雑な多次元ロバストネス評価結果を直感的で容易に解釈可能なビジュアルに変換する革新的な可視化コンポーネントを組み込んでいる。
従来の統計的手法は、変換効果が非常に破壊的である場合を除き、最先端のディープラーニングアルゴリズムよりも頑健であることを示す。
論文 参考訳(メタデータ) (2024-08-06T18:52:15Z) - Unlock the Power of Algorithm Features: A Generalization Analysis for Algorithm Selection [25.29451529910051]
本稿では,アルゴリズムの特徴に基づくアルゴリズム選択の証明可能な最初の保証を提案する。
アルゴリズムの特徴に関連する利点とコストを分析し、一般化誤差が様々な要因にどのように影響するかを考察する。
論文 参考訳(メタデータ) (2024-05-18T17:38:25Z) - Quantized Hierarchical Federated Learning: A Robust Approach to
Statistical Heterogeneity [3.8798345704175534]
本稿では,コミュニケーション効率に量子化を組み込んだ新しい階層型フェデレーション学習アルゴリズムを提案する。
最適性ギャップと収束率を評価するための包括的な分析フレームワークを提供する。
この結果から,本アルゴリズムはパラメータの範囲で常に高い学習精度を達成できることが判明した。
論文 参考訳(メタデータ) (2024-03-03T15:40:24Z) - Amortized Implicit Differentiation for Stochastic Bilevel Optimization [53.12363770169761]
決定論的条件と決定論的条件の両方において、二段階最適化問題を解決するアルゴリズムのクラスについて検討する。
厳密な勾配の推定を補正するために、ウォームスタート戦略を利用する。
このフレームワークを用いることで、これらのアルゴリズムは勾配の偏りのない推定値にアクセス可能な手法の計算複雑性と一致することを示す。
論文 参考訳(メタデータ) (2021-11-29T15:10:09Z) - Fractal Structure and Generalization Properties of Stochastic
Optimization Algorithms [71.62575565990502]
最適化アルゴリズムの一般化誤差は、その一般化尺度の根底にあるフラクタル構造の複雑性'にバウンドできることを示す。
さらに、特定の問題(リニア/ロジスティックレグレッション、隠れ/層ニューラルネットワークなど)とアルゴリズムに対して、結果をさらに専門化します。
論文 参考訳(メタデータ) (2021-06-09T08:05:36Z) - Galerkin Neural Networks: A Framework for Approximating Variational
Equations with Error Control [0.0]
本稿では,ニューラルネットワークを用いて変分方程式の解を近似する手法を提案する。
基本関数がニューラルネットワークの列の実現である有限次元部分空間の列を用いる。
論文 参考訳(メタデータ) (2021-05-28T20:25:40Z) - Joint Network Topology Inference via Structured Fusion Regularization [70.30364652829164]
結合ネットワークトポロジ推論は、異種グラフ信号から複数のグラフラプラシア行列を学習する標準的な問題を表す。
新規な構造化融合正規化に基づく一般グラフ推定器を提案する。
提案するグラフ推定器は高い計算効率と厳密な理論保証の両方を享受できることを示す。
論文 参考訳(メタデータ) (2021-03-05T04:42:32Z) - Accelerated Message Passing for Entropy-Regularized MAP Inference [89.15658822319928]
離散値のランダムフィールドにおけるMAP推論の最大化は、機械学習の基本的な問題である。
この問題の難しさから、特殊メッセージパッシングアルゴリズムの導出には線形プログラミング(LP)緩和が一般的である。
古典的加速勾配の根底にある手法を活用することにより,これらのアルゴリズムを高速化するランダム化手法を提案する。
論文 参考訳(メタデータ) (2020-07-01T18:43:32Z) - Is Temporal Difference Learning Optimal? An Instance-Dependent Analysis [102.29671176698373]
我々は、割引決定過程における政策評価の問題に対処し、生成モデルの下で、ll_infty$errorに対するマルコフに依存した保証を提供する。
我々は、ポリシー評価のために、局所ミニマックス下限の両漸近バージョンと非漸近バージョンを確立し、アルゴリズムを比較するためのインスタンス依存ベースラインを提供する。
論文 参考訳(メタデータ) (2020-03-16T17:15:28Z) - Optimization with Momentum: Dynamical, Control-Theoretic, and Symplectic
Perspectives [97.16266088683061]
この論文は、運動量に基づく最適化アルゴリズムにおいてシンプレクティックな離散化スキームが重要であることを厳格に証明している。
これは加速収束を示すアルゴリズムの特性を提供する。
論文 参考訳(メタデータ) (2020-02-28T00:32:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。