Fugu-MT 論文翻訳(概要): A primal-dual perspective for distributed TD-learning

論文の概要: A primal-dual perspective for distributed TD-learning

arxiv url: http://arxiv.org/abs/2310.00638v1
Date: Sun, 1 Oct 2023 10:38:46 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-05 02:59:06.974797
Title: A primal-dual perspective for distributed TD-learning
Title（参考訳）: 分散td学習における初歩的視点
Authors: Han-Dong Lim, Donghwan Lee
Abstract要約: 本研究の目的は,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討することである。提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)の力学として解釈できる。
参考スコア（独自算出の注目度）: 7.871657629581001
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The goal of this paper is to investigate distributed temporal difference (TD) learning for a networked multi-agent Markov decision process. The proposed approach is based on distributed optimization algorithms, which can be interpreted as primal-dual Ordinary differential equation (ODE) dynamics subject to null-space constraints. Based on the exponential convergence behavior of the primal-dual ODE dynamics subject to null-space constraints, we examine the behavior of the final iterate in various distributed TD-learning scenarios, considering both constant and diminishing step-sizes and incorporating both i.i.d. and Markovian observation models. Unlike existing methods, the proposed algorithm does not require the assumption that the underlying communication network structure is characterized by a doubly stochastic matrix.
Abstract（参考訳）: 本稿では,ネットワーク型マルチエージェントマルコフ決定プロセスにおける分散時間差(TD)学習について検討する。提案手法は分散最適化アルゴリズムに基づいており、これはヌル空間制約を受ける原始双対常微分方程式(ODE)力学と解釈できる。零空間制約を受ける原始-双対ODEダイナミクスの指数収束挙動に基づいて、各分散TD学習シナリオにおける最終繰り返しの挙動を、定数と減少するステップサイズの両方を考慮して検討し、i.d.とマルコフ観測モデルの両方を取り入れた。既存の手法とは異なり、提案アルゴリズムは、基礎となる通信ネットワーク構造が二重確率行列によって特徴づけられるという仮定を必要としない。

関連論文リスト

Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation [55.88862563823878]
本研究では,微分可能物理の概念に基づいて,非構造格子を階層化するアルゴリズムを提案する。多孔質媒質中のわずかに圧縮可能な流体流を制御した線形方程式と波動方程式の2つのPDE上でのアルゴリズムの性能を示す。その結果,検討したシナリオでは,関心点におけるモデル変数のダイナミクスを保ちながら,格子点数を最大10倍に削減した。
論文参考訳（メタデータ） (2025-07-24T11:02:13Z)
Preconditioned Inexact Stochastic ADMM for Deep Model [35.37705488695026]
本稿では,拡張性のある並列計算を可能にするアルゴリズム PISA を開発し,様々な第2モーメント方式をサポートする。厳密な理論的な保証の下で、アルゴリズムは勾配のリプシッツの唯一の仮定の下で収束する。視覚モデル、大規模言語モデル、強化学習モデル、生成的敵ネットワーク、繰り返しニューラルネットワークを含む様々なFMの総合的または微調整実験は、様々な最先端の方向と比較して優れた数値性能を示す。
論文参考訳（メタデータ） (2025-02-15T12:28:51Z)
Distributed Markov Chain Monte Carlo Sampling based on the Alternating Direction Method of Multipliers [143.6249073384419]
本論文では,乗算器の交互方向法に基づく分散サンプリング手法を提案する。我々は,アルゴリズムの収束に関する理論的保証と,その最先端性に関する実験的証拠の両方を提供する。シミュレーションでは,線形回帰タスクとロジスティック回帰タスクにアルゴリズムを配置し,その高速収束を既存の勾配法と比較した。
論文参考訳（メタデータ） (2024-01-29T02:08:40Z)
A deep implicit-explicit minimizing movement method for option pricing in jump-diffusion models [0.0]
我々は、ジャンプ拡散力学に従う資産に書かれた欧州のバスケットオプションの価格設定のための新しいディープラーニングアプローチを開発する。オプション価格問題は部分積分微分方程式として定式化され、これは新しい暗黙的な最小化運動タイムステッピング手法によって近似される。
論文参考訳（メタデータ） (2024-01-12T18:21:01Z)
Exploiting Diffusion Prior for Generalizable Dense Prediction [85.4563592053464]
近年のテキスト・トゥ・イメージ(T2I)拡散モデルでは、既成の高密度予測器では予測できないことがある。我々は,事前学習したT2Iモデルを用いたパイプラインDMPを,高密度予測タスクの先駆けとして導入する。限られたドメインのトレーニングデータにもかかわらず、この手法は任意の画像に対して忠実に推定し、既存の最先端のアルゴリズムを超越する。
論文参考訳（メタデータ） (2023-11-30T18:59:44Z)
Distributed Linear Regression with Compositional Covariates [5.085889377571319]
大規模合成データにおける分散スパースペナル化線形ログコントラストモデルに着目する。 2つの異なる制約凸最適化問題を解くために2つの分散最適化手法を提案する。分散化されたトポロジでは、通信効率の高い正規化推定値を得るための分散座標ワイド降下アルゴリズムを導入する。
論文参考訳（メタデータ） (2023-10-21T11:09:37Z)
Variational Density Propagation Continual Learning [0.0]
現実世界にデプロイされるディープニューラルネットワーク(DNN)は、定期的にオフ・オブ・ディストリビューション(OoD)データの対象となっている。本稿では,ベンチマーク連続学習データセットによってモデル化されたデータ分散ドリフトに適応するフレームワークを提案する。
論文参考訳（メタデータ） (2023-08-22T21:51:39Z)
Stochastic Unrolled Federated Learning [85.6993263983062]
本稿では,UnRolled Federated Learning (SURF)を導入する。提案手法は,この拡張における2つの課題,すなわち,非学習者へのデータセット全体の供給の必要性と,フェデレート学習の分散的性質に対処する。
論文参考訳（メタデータ） (2023-05-24T17:26:22Z)
Distributed Bayesian Learning of Dynamic States [65.7870637855531]
提案アルゴリズムは有限状態隠れマルコフモデルに対する分散ベイズフィルタタスクである。逐次状態推定や、動的環境下でのソーシャルネットワーク上での意見形成のモデル化に使用できる。
論文参考訳（メタデータ） (2022-12-05T19:40:17Z)
Variational Laplace Autoencoders [53.08170674326728]
変分オートエンコーダは、遅延変数の後部を近似するために、償却推論モデルを用いる。完全分解ガウス仮定の限定的後部表現性に対処する新しい手法を提案する。また、深部生成モデルのトレーニングのための変分ラプラスオートエンコーダ(VLAE)という一般的なフレームワークも提示する。
論文参考訳（メタデータ） (2022-11-30T18:59:27Z)
Galerkin Neural Networks: A Framework for Approximating Variational Equations with Error Control [0.0]
本稿では,ニューラルネットワークを用いて変分方程式の解を近似する手法を提案する。基本関数がニューラルネットワークの列の実現である有限次元部分空間の列を用いる。
論文参考訳（メタデータ） (2021-05-28T20:25:40Z)
Distributed Value Function Approximation for Collaborative Multi-Agent Reinforcement Learning [2.7071541526963805]
本稿では,多エージェントオフポリシー学習のための分散勾配に基づく時間差分アルゴリズムを提案する。提案するアルゴリズムは,その形式,可視性トレースの定義,時間スケールの選択,コンセンサス反復を組み込む方法などによって異なる。より弱い情報構造制約の下で時間差分アルゴリズムにどのように適用できるかを示す。
論文参考訳（メタデータ） (2020-06-18T11:46:09Z)
Communication-Efficient Distributed Stochastic AUC Maximization with Deep Neural Networks [50.42141893913188]
本稿では,ニューラルネットワークを用いた大規模AUCのための分散変数について検討する。我々のモデルは通信ラウンドをはるかに少なくし、理論上はまだ多くの通信ラウンドを必要としています。いくつかのデータセットに対する実験は、我々の理論の有効性を示し、我々の理論を裏付けるものである。
論文参考訳（メタデータ） (2020-05-05T18:08:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。