論文の概要: Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision
Processes
- arxiv url: http://arxiv.org/abs/2307.16706v1
- Date: Mon, 31 Jul 2023 14:25:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 13:59:06.907569
- Title: Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision
Processes
- Title(参考訳): ネットワーク型マルチエージェントマルコフ決定プロセスのための分散動的プログラミング
- Authors: Okyong Choi and Donghwan Lee
- Abstract要約: 分散マルチエージェントの場合において,各エージェントが他のエージェントの報酬にアクセスできない場合を考える。
本稿では,連続時間領域における分散DPを提案し,その収束性を制御理論の観点から証明する。
- 参考スコア(独自算出の注目度): 3.5823366350053325
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main goal of this paper is to investigate distributed dynamic programming
(DP) to solve networked multi-agent Markov decision problems (MDPs). We
consider a distributed multi-agent case, where each agent does not have an
access to the rewards of other agents except for its own reward. Moreover, each
agent can share their parameters with its neighbors over a communication
network represented by a graph. We propose a distributed DP in the
continuous-time domain, and prove its convergence through control theoretic
viewpoints. The proposed analysis can be viewed as a preliminary ordinary
differential equation (ODE) analysis of a distributed temporal difference
learning algorithm, whose convergence can be proved using Borkar-Meyn theorem
and the single time-scale approach.
- Abstract(参考訳): 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MDP)を解決するために分散動的プログラミング(DP)について検討する。
分散マルチエージェントの場合において,各エージェントが他のエージェントの報酬にアクセスできない場合を考える。
さらに、各エージェントはグラフで表される通信ネットワーク上で、そのパラメータを隣人と共有することができる。
本稿では,連続時間領域における分散DPを提案し,その収束性を制御理論の観点から証明する。
本解析は,分散時間差学習アルゴリズムの予備常微分方程式 (ode) 解析であり,borkar-meynの定理と単一時間スケールアプローチを用いて収束を証明できる。
関連論文リスト
- Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。
まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。
我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文 参考訳(メタデータ) (2024-10-22T17:45:45Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Decentralized Monte Carlo Tree Search for Partially Observable
Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。
本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。
MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文 参考訳(メタデータ) (2023-12-26T06:57:22Z) - Decentralised Q-Learning for Multi-Agent Markov Decision Processes with
a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。
目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文 参考訳(メタデータ) (2023-11-21T13:56:44Z) - MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。
この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。
本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文 参考訳(メタデータ) (2023-05-27T02:14:09Z) - Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。
また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。
提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文 参考訳(メタデータ) (2022-10-07T00:40:59Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - Learning to Coordinate via Multiple Graph Neural Networks [16.226702761758595]
MGANはグラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである。
グラフネットワークの出力を可視化することにより,表現学習におけるグラフネットワークの驚くべき能力を示す。
論文 参考訳(メタデータ) (2021-04-08T04:33:00Z) - MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal
Sequencing and Path Finding [10.354181009277623]
監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、多数の目標地点を安全に訪問することがしばしば期待されている。
本稿では、このマルチエージェント問題に対する最適解を計算するMS*と呼ばれる新しいアルゴリズムを紹介します。
計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。
論文 参考訳(メタデータ) (2021-03-18T01:57:35Z) - Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。
本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。
我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文 参考訳(メタデータ) (2020-11-06T18:16:26Z) - Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。
深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文 参考訳(メタデータ) (2020-03-19T13:10:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。