Fugu-MT 論文翻訳(概要): Q-MARL: A quantum-inspired algorithm using neural message passing for large-scale multi-agent reinforcement learning

論文の概要: Q-MARL: A quantum-inspired algorithm using neural message passing for large-scale multi-agent reinforcement learning

arxiv url: http://arxiv.org/abs/2503.07397v1
Date: Mon, 10 Mar 2025 14:43:10 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-11 20:09:44.981966
Title: Q-MARL: A quantum-inspired algorithm using neural message passing for large-scale multi-agent reinforcement learning
Title（参考訳）: Q-MARL:大規模マルチエージェント強化学習のためのニューラルメッセージパッシングを用いた量子インスピレーションアルゴリズム
Authors: Kha Vo, Chin-Teng Lin,
Abstract要約: Q-MARLは完全に分散学習アーキテクチャである。大規模なマルチエージェント強化学習シナリオをサポートする。詳細な理論的分析は、改善と収束を証明している。
参考スコア（独自算出の注目度）: 27.014941513702183
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Inspired by a graph-based technique for predicting molecular properties in quantum chemistry -- atoms' position within molecules in three-dimensional space -- we present Q-MARL, a completely decentralised learning architecture that supports very large-scale multi-agent reinforcement learning scenarios without the need for strong assumptions like common rewards or agent order. The key is to treat each agent as relative to its surrounding agents in an environment that is presumed to change dynamically. Hence, in each time step, an agent is the centre of its own neighbourhood and also a neighbour to many other agents. Each role is formulated as a sub-graph, and each sub-graph is used as a training sample. A message-passing neural network supports full-scale vertex and edge interaction within a local neighbourhood, while a parameter governing the depth of the sub-graphs eases the training burden. During testing, an agent's actions are locally ensembled across all the sub-graphs that contain it, resulting in robust decisions. Where other approaches struggle to manage 50 agents, Q-MARL can easily marshal thousands. A detailed theoretical analysis proves improvement and convergence, and simulations with the typical collaborative and competitive scenarios show dramatically faster training speeds and reduced training losses.
Abstract（参考訳）: Q-MARLは、非常に大規模なマルチエージェント強化学習シナリオをサポートする、一般的な報酬やエージェント順序のような強い仮定を必要とせずに、完全に分散化された学習アーキテクチャである。鍵となるのは、動的に変化すると推定される環境において、各エージェントを周囲のエージェントと相対的に扱うことである。したがって、各段階において、エージェントは自身の近隣の中心であり、他の多くのエージェントの隣人でもある。各ロールはサブグラフとして定式化され、各サブグラフはトレーニングサンプルとして使用される。メッセージパッシングニューラルネットワークは、局所的な近傍におけるフルスケールの頂点とエッジの相互作用をサポートし、サブグラフの深さを規定するパラメータは、トレーニングの負担を軽減する。テスト中、エージェントのアクションは、それを含むすべてのサブグラフに局所的にアンサンブルされ、堅牢な決定をもたらす。他のアプローチが50のエージェントを管理するのに苦労している場合、Q-MARLは簡単に数千のエージェントをマーシャリングできる。詳細な理論的分析により、改善と収束が証明され、典型的な協調的および競争的なシナリオによるシミュレーションでは、トレーニング速度が劇的に速くなり、トレーニング損失が減少する。

関連論文リスト

MASP: Scalable GNN-based Planning for Multi-Agent Navigation [18.70078556851899]
Multi-Agent Scalable Graph-based Planner (MASP)は、ナビゲーションタスクのためのゴール条件付き階層型プランナーである。 MASPは、大規模な探索空間を複数の目標条件付き部分空間に分解することで、空間の複雑さを低減するために階層的なフレームワークを採用している。エージェントの協力とさまざまなチームサイズへの適応のために、エージェントと目標をグラフとしてモデル化し、それらの関係をよりよく捉えます。
論文参考訳（メタデータ） (2023-12-05T06:05:04Z)
Deep Multi-Agent Reinforcement Learning for Decentralized Active Hypothesis Testing [11.639503711252663]
我々は,深層多エージェント強化学習の枠組みに根ざした新しいアルゴリズムを導入することで,マルチエージェント能動仮説テスト(AHT)問題に取り組む。エージェントが協調戦略を学習し、性能を向上させる能力を効果的に示す実験結果を包括的に提示する。
論文参考訳（メタデータ） (2023-09-14T01:18:04Z)
MADiff: Offline Multi-agent Learning with Diffusion Models [79.18130544233794]
MADiffは拡散型マルチエージェント学習フレームワークである。分散ポリシと集中型コントローラの両方として機能する。実験の結果,MADiffは様々なマルチエージェント学習タスクにおいて,ベースラインアルゴリズムよりも優れていた。
論文参考訳（メタデータ） (2023-05-27T02:14:09Z)
Partially Observable Mean Field Multi-Agent Reinforcement Learning Based on Graph-Attention [12.588866091856309]
本稿では、各エージェントが一定の範囲内で他のエージェントを観察できる部分観測可能マルチエージェント強化学習(MARL)について考察する。グラフ認識(GAMFQ)に基づく部分観測可能な平均場多エージェント強化学習法を提案する。実験により、GAMFQは最先端の部分的に観測可能な平均場強化学習アルゴリズムを含むベースラインを上回っていることが示された。
論文参考訳（メタデータ） (2023-04-25T08:38:32Z)
Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。 InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文参考訳（メタデータ） (2022-11-03T20:02:45Z)
Efficient Model-based Multi-agent Reinforcement Learning via Optimistic Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文参考訳（メタデータ） (2022-03-14T17:24:03Z)
Decentralized Cooperative Multi-Agent Reinforcement Learning with Exploration [35.75029940279768]
マルコフチーム(Markov team)において、最も基本的な協調環境でマルチエージェント強化学習を研究する。本稿では,各エージェントが独立してステージベースのVラーニングスタイルのアルゴリズムを実行するアルゴリズムを提案する。エージェントは、少なくとも$proptowidetildeO (1/epsilon4)$ episodesにおいて、$epsilon$-approximate Nash平衡ポリシーを学ぶことができる。
論文参考訳（メタデータ） (2021-10-12T02:45:12Z)
Mean-Field Multi-Agent Reinforcement Learning: A Decentralized Network Approach [6.802025156985356]
本稿では,MARLを状態ネットワークで学習するために,局所学習と分散実行というフレームワークを提案する。鍵となる考え方は、エージェントの均質性を利用し、それらの状態に応じてそれらを再分類することであり、それによってネットワーク化されたマルコフ決定過程が定式化される。
論文参考訳（メタデータ） (2021-08-05T16:52:36Z)
Energy-Efficient and Federated Meta-Learning via Projected Stochastic Gradient Ascent [79.58680275615752]
エネルギー効率のよいメタラーニングフレームワークを提案する。各タスクは別々のエージェントによって所有されていると仮定するため、メタモデルをトレーニングするために限られたタスクが使用される。
論文参考訳（メタデータ） (2021-05-31T08:15:44Z)
What is Going on Inside Recurrent Meta Reinforcement Learning Agents? [63.58053355357644]
recurrent meta reinforcement learning (meta-rl)エージェントは「学習アルゴリズムの学習」を目的としてrecurrent neural network (rnn)を使用するエージェントである。部分観測可能なマルコフ決定プロセス(POMDP)フレームワークを用いてメタRL問題を再構成することにより,これらのエージェントの内部動作機構を明らかにする。
論文参考訳（メタデータ） (2021-04-29T20:34:39Z)
Dif-MAML: Decentralized Multi-Agent Meta-Learning [54.39661018886268]
我々は,MAML や Dif-MAML と呼ばれる協調型マルチエージェントメタ学習アルゴリズムを提案する。提案手法により, エージェントの集合が線形速度で合意に達し, 集約MAMLの定常点に収束できることを示す。シミュレーションの結果は従来の非協調的な環境と比較して理論的な結果と優れた性能を示している。
論文参考訳（メタデータ） (2020-10-06T16:51:09Z)
F2A2: Flexible Fully-decentralized Approximate Actor-critic for Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文参考訳（メタデータ） (2020-04-17T14:56:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。