論文の概要: A primal-dual perspective for distributed TD-learning
- arxiv url: http://arxiv.org/abs/2310.00638v1
- Date: Sun, 1 Oct 2023 10:38:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-05 02:59:06.974797
- Title: A primal-dual perspective for distributed TD-learning
- Title(参考訳): 分散td学習における初歩的視点
- Authors: Han-Dong Lim, Donghwan Lee
- Abstract要約: 本研究の目的は,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討することである。
提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)の力学として解釈できる。
- 参考スコア(独自算出の注目度): 7.871657629581001
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of this paper is to investigate distributed temporal difference (TD)
learning for a networked multi-agent Markov decision process. The proposed
approach is based on distributed optimization algorithms, which can be
interpreted as primal-dual Ordinary differential equation (ODE) dynamics
subject to null-space constraints. Based on the exponential convergence
behavior of the primal-dual ODE dynamics subject to null-space constraints, we
examine the behavior of the final iterate in various distributed TD-learning
scenarios, considering both constant and diminishing step-sizes and
incorporating both i.i.d. and Markovian observation models. Unlike existing
methods, the proposed algorithm does not require the assumption that the
underlying communication network structure is characterized by a doubly
stochastic matrix.
- Abstract(参考訳): 本稿では,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討する。
提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)力学と解釈できる。
零空間制約を受ける原始-双対ODEダイナミクスの指数収束挙動に基づいて、各分散TD学習シナリオにおける最終繰り返しの挙動を、定数と減少するステップサイズの両方を考慮して検討し、i.d.とマルコフ観測モデルの両方を取り入れた。
既存の手法とは異なり、提案アルゴリズムは、基礎となる通信ネットワーク構造が二重確率行列によって特徴づけられるという仮定を必要としない。
関連論文リスト
- Distributed Markov Chain Monte Carlo Sampling based on the Alternating
Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。
我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。
シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文 参考訳(メタデータ) (2024-01-29T02:08:40Z) - A deep implicit-explicit minimizing movement method for option pricing
in jump-diffusion models [0.0]
我々は、ジャンプ拡散力学に従う資産に書かれた欧州のバスケットオプションの価格設定のための新しいディープラーニングアプローチを開発する。
オプション価格問題は部分積分微分方程式として定式化され、これは新しい暗黙的な最小化運動タイムステッピング手法によって近似される。
論文 参考訳(メタデータ) (2024-01-12T18:21:01Z) - Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。
我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。
限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文 参考訳(メタデータ) (2023-11-30T18:59:44Z) - Distributed Linear Regression with Compositional Covariates [5.085889377571319]
大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目する。
2つの異なる制約凸最適化問題を解くために2つの分散最適化手法を提案する。
分散化されたトポロジでは、通信効率の高い正規化推定値を得るための分散座標ワイド降下アルゴリズムを導入する。
論文 参考訳(メタデータ) (2023-10-21T11:09:37Z) - Variational Density Propagation Continual Learning [0.0]
現実世界にデプロイされるディープニューラルネットワーク(DNN)は、定期的にオフ・オブ・ディストリビューション(OoD)データの対象となっている。
本稿では,ベンチマーク連続学習データセットによってモデル化されたデータ分散ドリフトに適応するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-22T21:51:39Z) - Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。
提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文 参考訳(メタデータ) (2023-05-24T17:26:22Z) - Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。
逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文 参考訳(メタデータ) (2022-12-05T19:40:17Z) - Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。
完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。
また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文 参考訳(メタデータ) (2022-11-30T18:59:27Z) - Galerkin Neural Networks: A Framework for Approximating Variational
Equations with Error Control [0.0]
本稿では,ニューラルネットワークを用いて変分方程式の解を近似する手法を提案する。
基本関数がニューラルネットワークの列の実現である有限次元部分空間の列を用いる。
論文 参考訳(メタデータ) (2021-05-28T20:25:40Z) - Distributed Value Function Approximation for Collaborative Multi-Agent
Reinforcement Learning [2.7071541526963805]
本稿では,多エージェントオフポリシー学習のための分散勾配に基づく時間差分アルゴリズムを提案する。
提案するアルゴリズムは,その形式,可視性トレースの定義,時間スケールの選択,コンセンサス反復を組み込む方法などによって異なる。
より弱い情報構造制約の下で時間差分アルゴリズムにどのように適用できるかを示す。
論文 参考訳(メタデータ) (2020-06-18T11:46:09Z) - Communication-Efficient Distributed Stochastic AUC Maximization with
Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。
我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。
いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文 参考訳(メタデータ) (2020-05-05T18:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。