論文の概要: Distributed Dynamic Programming and an O.D.E. Framework of Distributed
TD-Learning for Networked Multi-Agent Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2307.16706v2
- Date: Mon, 7 Aug 2023 15:52:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 20:17:29.865127
- Title: Distributed Dynamic Programming and an O.D.E. Framework of Distributed
TD-Learning for Networked Multi-Agent Markov Decision Processes
- Title(参考訳): ネットワーク型マルチエージェントマルコフ決定プロセスのための分散動的プログラミングと分散td学習のフレームワーク
- Authors: Donghwan Lee
- Abstract要約: 本稿では,分散動的プログラミング(DP)と分散時間差(TD)学習アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬にのみアクセス可能な分散マルチエージェントフレームワークを採用する。
提案する分散DPの際立った特徴は,2つの独立系がそれぞれ異なる役割を担っていることである。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary objective of this paper is to investigate distributed dynamic
programming (DP) and distributed temporal difference (TD) learning algorithms
for networked multi-agent Markov decision problems (MAMDPs). In our study, we
adopt a distributed multi-agent framework where individual agents have access
only to their own rewards, lacking insights into the rewards of other agents.
Additionally, each agent has the ability to share its parameters with
neighboring agents through a communication network, represented by a graph. Our
contributions can be summarized in two key points: 1) We introduce a novel
distributed DP, inspired by the averaging consensus method in the
continuous-time domain. The convergence of this DP is assessed through control
theory perspectives. 2) Building upon the aforementioned DP, we devise a new
distributed TD-learning algorithm and prove its convergence. A standout feature
of our proposed distributed DP is its incorporation of two independent dynamic
systems, each with a distinct role. This characteristic sets the stage for a
novel distributed TD-learning strategy, the convergence of which can be
directly established using the Borkar-Meyn theorem.
- Abstract(参考訳): 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散動的プログラミング(DP)と分散時間差(TD)学習アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。
私たちの貢献は2つの重要なポイントにまとめることができる。
1) 連続時間領域における平均的コンセンサス法に着想を得た分散DPを提案する。
このDPの収束性は制御理論の観点から評価される。
2) 上記のDPに基づいて,新しい分散TD学習アルゴリズムを考案し,その収束性を証明する。
提案する分散DPの際立った特徴は,2つの独立系がそれぞれ異なる役割を担っていることである。
この特徴は、ボルカー・メインの定理を用いて直接確立できる、新しい分散TD学習戦略のステージを設定する。
関連論文リスト
- Cluster-Based Multi-Agent Task Scheduling for Space-Air-Ground Integrated Networks [60.085771314013044]
低高度経済は、コミュニケーションやセンシングなどの分野で発展する大きな可能性を秘めている。
本稿では,SAGINにおけるマルチUAV協調タスクスケジューリング問題に対処するため,クラスタリングに基づく多エージェントDeep Deterministic Policy Gradient (CMADDPG)アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:17:33Z) - Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。
分散ポリシと集中型コントローラの両方として機能する。
実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Learning to Coordinate via Multiple Graph Neural Networks [16.226702761758595]
MGANはグラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである。
グラフネットワークの出力を可視化することにより,表現学習におけるグラフネットワークの驚くべき能力を示す。
論文 参考訳(メタデータ) (2021-04-08T04:33:00Z) - MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal
Sequencing and Path Finding [10.354181009277623]
監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、多数の目標地点を安全に訪問することがしばしば期待されている。
本稿では、このマルチエージェント問題に対する最適解を計算するMS*と呼ばれる新しいアルゴリズムを紹介します。
計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。
論文 参考訳(メタデータ) (2021-03-18T01:57:35Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。