論文の概要: An O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent
Markov Decision Processes
- arxiv url: http://arxiv.org/abs/2307.16706v3
- Date: Wed, 16 Aug 2023 12:15:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 16:24:31.688503
- Title: An O.D.E. Framework of Distributed TD-Learning for Networked Multi-Agent
Markov Decision Processes
- Title(参考訳): ネットワーク型マルチエージェントマルコフ決定プロセスのための分散TD学習のO.D.E.フレームワーク
- Authors: Donghwan Lee and Do Wan Kim
- Abstract要約: 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散常微分方程式(ODE)と分散時間差(TD)学習アルゴリズムについて検討する。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
提案する分散ODEの1つの特徴は、2つの独立した動的システムがそれぞれ異なる役割を担っていることである。
- 参考スコア(独自算出の注目度): 7.191780076353627
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The primary objective of this paper is to investigate distributed ordinary
differential equation (ODE) and distributed temporal difference (TD) learning
algorithms for networked multi-agent Markov decision problems (MAMDPs). In our
study, we adopt a distributed multi-agent framework where individual agents
have access only to their own rewards, lacking insights into the rewards of
other agents. Additionally, each agent has the ability to share its parameters
with neighboring agents through a communication network, represented by a
graph. Our contributions can be summarized in two key points: 1) We introduce
novel distributed ODEs, inspired by the averaging consensus method in the
continuous-time domain. The convergence of the ODEs is assessed through control
theory perspectives. 2) Building upon the aforementioned ODEs, we devise new
distributed TD-learning algorithms. A standout feature of one of our proposed
distributed ODE is its incorporation of two independent dynamic systems, each
with a distinct role. This characteristic sets the stage for a novel
distributed TD-learning strategy, the convergence of which can potentially be
established using the Borkar-Meyn theorem.
- Abstract(参考訳): 本研究の目的は,ネットワーク型マルチエージェントマルコフ決定問題(MAMDP)に対する分散常微分方程式(ODE)と分散時間差(TD)学習アルゴリズムを検討することである。
本研究では,個々のエージェントが自身の報酬のみにアクセスできる分散マルチエージェントフレームワークを採用し,他のエージェントの報酬に対する洞察を欠いている。
さらに、各エージェントは、グラフで表される通信ネットワークを介して、そのパラメータを隣接するエージェントと共有することができる。
私たちの貢献は2つの重要なポイントにまとめることができる。
1) 連続時間領域における平均的なコンセンサス手法に着想を得た新しい分散ODEを導入する。
ODEの収束は制御理論の観点から評価される。
2) 上記のODEに基づいて,新しい分散TD学習アルゴリズムを考案する。
提案する分散 ode の際立った特徴は、2つの独立した動的システム(それぞれ異なる役割を持つ)を組み込むことです。
この特徴は、新しい分散TD学習戦略のステージを設定し、その収束はボルカー・メインの定理を用いて確立することができる。
関連論文リスト
- Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Learning to Coordinate via Multiple Graph Neural Networks [16.226702761758595]
MGANはグラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである。
グラフネットワークの出力を可視化することにより,表現学習におけるグラフネットワークの驚くべき能力を示す。
論文 参考訳(メタデータ) (2021-04-08T04:33:00Z) - MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal
Sequencing and Path Finding [10.354181009277623]
監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、多数の目標地点を安全に訪問することがしばしば期待されている。
本稿では、このマルチエージェント問題に対する最適解を計算するMS*と呼ばれる新しいアルゴリズムを紹介します。
計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。
論文 参考訳(メタデータ) (2021-03-18T01:57:35Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。