Fugu-MT 論文翻訳(概要): Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes

論文の概要: Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes

arxiv url: http://arxiv.org/abs/2307.16706v1
Date: Mon, 31 Jul 2023 14:25:20 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-01 13:59:06.907569
Title: Distributed Dynamic Programming forNetworked Multi-Agent Markov Decision Processes
Title（参考訳）: ネットワーク型マルチエージェントマルコフ決定プロセスのための分散動的プログラミング
Authors: Okyong Choi and Donghwan Lee
Abstract要約: 分散マルチエージェントの場合において,各エージェントが他のエージェントの報酬にアクセスできない場合を考える。本稿では,連続時間領域における分散DPを提案し,その収束性を制御理論の観点から証明する。
参考スコア（独自算出の注目度）: 3.5823366350053325
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The main goal of this paper is to investigate distributed dynamic programming (DP) to solve networked multi-agent Markov decision problems (MDPs). We consider a distributed multi-agent case, where each agent does not have an access to the rewards of other agents except for its own reward. Moreover, each agent can share their parameters with its neighbors over a communication network represented by a graph. We propose a distributed DP in the continuous-time domain, and prove its convergence through control theoretic viewpoints. The proposed analysis can be viewed as a preliminary ordinary differential equation (ODE) analysis of a distributed temporal difference learning algorithm, whose convergence can be proved using Borkar-Meyn theorem and the single time-scale approach.
Abstract（参考訳）: 本稿では,ネットワーク型マルチエージェントマルコフ決定問題(MDP)を解決するために分散動的プログラミング(DP)について検討する。分散マルチエージェントの場合において,各エージェントが他のエージェントの報酬にアクセスできない場合を考える。さらに、各エージェントはグラフで表される通信ネットワーク上で、そのパラメータを隣人と共有することができる。本稿では,連続時間領域における分散DPを提案し,その収束性を制御理論の観点から証明する。本解析は,分散時間差学習アルゴリズムの予備常微分方程式 (ode) 解析であり,borkar-meynの定理と単一時間スケールアプローチを用いて収束を証明できる。

関連論文リスト

MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning [68.91090643731987]
深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
論文参考訳（メタデータ） (2026-02-28T16:25:22Z)
Structured Cooperative Multi-Agent Reinforcement Learning: a Bayesian Network Perspective [1.2515675707300356]
本研究では, モデルレス強化学習において, エージェント間結合における構造を有効活用するための体系的アプローチを提案する。 P-DTDEスキームに基づくマルチエージェントポリシー勾配定理を導出し,スケーラブルなアクター・クリティック・アルゴリズムを開発した。
論文参考訳（メタデータ） (2025-10-11T00:29:55Z)
Generative Diffusion Models for Resource Allocation in Wireless Networks [77.36145730415045]
我々は、専門家を模倣し、最適な分布から新しいサンプルを生成するポリシーを訓練する。生成したサンプルの逐次実行により,ほぼ最適性能を実現する。本稿では,マルチユーザ干渉ネットワークにおける電力制御のケーススタディとして数値的な結果を示す。
論文参考訳（メタデータ） (2025-04-28T21:44:31Z)
Scalable spectral representations for multi-agent reinforcement learning in network MDPs [13.782868855372774]
マルチエージェント制御の一般的なモデルであるNetwork Markov Decision Processes (MDPs)は、効率的な学習に重大な課題をもたらす。まず、ネットワークMDPに対してスケーラブルなスペクトル局所表現を導出し、各エージェントの局所$Q$関数に対するネットワーク線形部分空間を誘導する。我々は,連続的な状態対応ネットワークMDPのためのスケーラブルなアルゴリズムフレームワークを設計し,アルゴリズムの収束をエンドツーエンドで保証する。
論文参考訳（メタデータ） (2024-10-22T17:45:45Z)
DMM: Distributed Matrix Mechanism for Differentially-Private Federated Learning Based on Constant-Overhead Linear Secret Resharing [51.336015600778396]
本稿では,ベスト・オブ・ボス・ワールドを実現するための分散行列機構,分散DPのプライバシ向上,行列機構の実用性向上について紹介する。我々は、異なるトレーニングイテレーションのクライアント委員会間で、一定の通信オーバーヘッドで機密値をセキュアに転送する、新しい暗号プロトコルを用いてこれを実現する。
論文参考訳（メタデータ） (2024-10-21T16:25:14Z)
Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。このような修正により、一様かつ通常に分散した表現を学習できることを示す。その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文参考訳（メタデータ） (2024-10-09T15:40:04Z)
Decentralized Monte Carlo Tree Search for Partially Observable Multi-agent Pathfinding [49.730902939565986]
マルチエージェントパスフィンディング問題は、グラフに閉じ込められたエージェントのグループに対するコンフリクトフリーパスのセットを見つけることである。本研究では、エージェントが他のエージェントをローカルにのみ観察できる分散MAPF設定に焦点を当てた。 MAPFタスクのための分散マルチエージェントモンテカルロ木探索法を提案する。
論文参考訳（メタデータ） (2023-12-26T06:57:22Z)
Decentralised Q-Learning for Multi-Agent Markov Decision Processes with a Satisfiability Criterion [0.0]
マルチエージェントマルコフ決定過程(MMDP)を解決するための強化学習アルゴリズムを提案する。目標は、各エージェントの時間平均コストを、指定されたエージェント固有のバウンド以下にすることである。
論文参考訳（メタデータ） (2023-11-21T13:56:44Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
拡散モデル(DM)は、最近オフライン強化学習を含む様々なシナリオで大きな成功を収めた。この問題に対処する新しい生成型マルチエージェント学習フレームワークであるMADiffを提案する。本実験は,マルチエージェント学習タスクにおけるベースラインアルゴリズムと比較して,MADiffの優れた性能を示す。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Multi-agent Deep Covering Skill Discovery [50.812414209206054]
本稿では,複数エージェントの結合状態空間の予測被覆時間を最小化し,マルチエージェントオプションを構築するマルチエージェントDeep Covering Option Discoveryを提案する。また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。提案アルゴリズムは,アテンション機構とエージェントの相互作用を効果的に把握し,マルチエージェントオプションの同定に成功した。
論文参考訳（メタデータ） (2022-10-07T00:40:59Z)
Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文参考訳（メタデータ） (2021-09-30T23:28:00Z)
Learning to Coordinate via Multiple Graph Neural Networks [16.226702761758595]
MGANはグラフ畳み込みネットワークと値分解手法を組み合わせた新しいアルゴリズムである。グラフネットワークの出力を可視化することにより,表現学習におけるグラフネットワークの驚くべき能力を示す。
論文参考訳（メタデータ） (2021-04-08T04:33:00Z)
MS*: A New Exact Algorithm for Multi-agent Simultaneous Multi-goal Sequencing and Path Finding [10.354181009277623]
監視やロジスティクスといったマルチエージェントアプリケーションでは、多数のモバイルエージェントが協調し、多数の目標地点を安全に訪問することがしばしば期待されている。本稿では、このマルチエージェント問題に対する最適解を計算するMS*と呼ばれる新しいアルゴリズムを紹介します。計算結果から,提案アルゴリズムは標準ラップトップ上でのCPU時間1分で20エージェント,50ゴールのマルチエージェント問題を解くことができることがわかった。
論文参考訳（メタデータ） (2021-03-18T01:57:35Z)
Multi-Agent Decentralized Belief Propagation on Graphs [0.0]
対話的部分観測可能なマルコフ決定過程(I-POMDP)の問題点を考察する。本稿では,この問題に対する分散的信念伝達アルゴリズムを提案する。我々の研究は、ネットワーク化されたマルチエージェントI-POMDPのための分散的信念伝播アルゴリズムの最初の研究である。
論文参考訳（メタデータ） (2020-11-06T18:16:26Z)
Decentralized MCTS via Learned Teammate Models [89.24858306636816]
本稿では,モンテカルロ木探索に基づくトレーニング可能なオンライン分散計画アルゴリズムを提案する。深層学習と畳み込みニューラルネットワークを用いて正確なポリシー近似を作成可能であることを示す。
論文参考訳（メタデータ） (2020-03-19T13:10:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。