論文の概要: MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.00730v1
- Date: Sat, 28 Feb 2026 16:25:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.343932
- Title: MO-MIX: Multi-Objective Multi-Agent Cooperative Decision-Making With Deep Reinforcement Learning
- Title(参考訳): MO-MIX: 深層強化学習による多目的多目的協調意思決定
- Authors: Tianmeng Hu, Biao Luo, Chunhua Yang, Tingwen Huang,
- Abstract要約: 深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。
既存のアプローチは、別々のフィールドに限られており、単一の目的でマルチエージェントの意思決定しか処理できない。
マルチオブジェクト型マルチエージェント強化学習(MOMARL)問題の解法としてMO-mixを提案する。
- 参考スコア(独自算出の注目度): 68.91090643731987
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep reinforcement learning (RL) has been applied extensively to solve complex decision-making problems. In many real-world scenarios, tasks often have several conflicting objectives and may require multiple agents to cooperate, which are the multi-objective multi-agent decision-making problems. However, only few works have been conducted on this intersection. Existing approaches are limited to separate fields and can only handle multi-agent decision-making with a single objective, or multi-objective decision-making with a single agent. In this paper, we propose MO-MIX to solve the multi-objective multi-agent reinforcement learning (MOMARL) problem. Our approach is based on the centralized training with decentralized execution (CTDE) framework. A weight vector representing preference over the objectives is fed into the decentralized agent network as a condition for local action-value function estimation, while a mixing network with parallel architecture is used to estimate the joint action-value function. In addition, an exploration guide approach is applied to improve the uniformity of the final non-dominated solutions. Experiments demonstrate that the proposed method can effectively solve the multi-objective multi-agent cooperative decision-making problem and generate an approximation of the Pareto set. Our approach not only significantly outperforms the baseline method in all four kinds of evaluation metrics, but also requires less computational cost.
- Abstract(参考訳): 深部強化学習(RL)は複雑な意思決定問題を解決するために広く応用されている。
多くの現実のシナリオでは、タスクにはいくつかの矛盾する目的があり、複数のエージェントが協力する必要がある。
しかし、この交差点での作業はほとんど行われていない。
既存のアプローチは、別々のフィールドに限られており、単一の目的を持ったマルチエージェントの意思決定のみ、あるいは単一のエージェントによるマルチオブジェクトの意思決定しか処理できない。
本稿では,多目的マルチエージェント強化学習(MOMARL)問題を解決するMO-MIXを提案する。
我々のアプローチは、分散実行(CTDE)フレームワークによる集中的なトレーニングに基づいている。
目的物に対する嗜好を表す重みベクトルを局所的な作用値関数推定の条件として分散エージェントネットワークに入力し、並列アーキテクチャの混合ネットワークを用いて共同作用値関数を推定する。
さらに,最後の非支配的解の均一性を改善するための探索ガイド手法を適用した。
実験により,提案手法は多目的多目的協調意思決定問題を効果的に解き,パレート集合の近似を生成することができることを示した。
提案手法は, 4種類の評価指標すべてにおいて, ベースライン法を著しく上回るだけでなく, 計算コストの低減も図っている。
関連論文リスト
- An Efficient Approach for Cooperative Multi-Agent Learning Problems [0.8287206589886881]
本稿では,複数のエージェントの同時動作をモデル化する政策学習のための中心的枠組みを提案する。
本手法は,集中型手法に典型的なスケーラビリティ問題を克服する逐次的抽象化によるコーディネーション問題に対処する。
実験の結果,提案手法は多様なマルチエージェント学習環境におけるエージェントのコーディネートに成功していることがわかった。
論文 参考訳(メタデータ) (2025-04-07T09:03:35Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Learning Emergence of Interaction Patterns across Independent RL Agents in Multi-Agent Environments [3.0284592792243794]
ボトムアップネットワーク(BUN)は、マルチエージェントの集合を統一エンティティとして扱う。
協調ナビゲーションやトラヒックコントロールなどのタスクを含む,さまざまな協調型マルチエージェントシナリオに対する実証的な評価は,BUNが計算コストを大幅に削減したベースライン手法よりも優れていることを一貫して証明している。
論文 参考訳(メタデータ) (2024-10-03T14:25:02Z) - UCB-driven Utility Function Search for Multi-objective Reinforcement Learning [51.00436121587591]
マルチオブジェクト強化学習(MORL)エージェントでは、意思決定行動の最適化を行う。
重みベクトル w でパラメトリした線型効用関数の場合に焦点を当てる。
学習過程の異なる段階で最も有望な重みベクトルを効率的に探索する上信頼境界に基づく手法を提案する。
論文 参考訳(メタデータ) (2024-05-01T09:34:42Z) - Many-Objective Multi-Solution Transport [36.07360460509921]
many-objective multi-solution Transport (MosT) は、Paretoの多くの目的に対して複数の多様なソリューションを見つけるためのフレームワークである。
MosTはこの問題を各解に対する重み付けされた目的の2段階の最適化として定式化し、そこでは重み付けは目的と解の間の最適な輸送によって定義される。
論文 参考訳(メタデータ) (2024-03-06T23:03:12Z) - A Scale-Independent Multi-Objective Reinforcement Learning with
Convergence Analysis [0.6091702876917281]
多くのシーケンシャルな意思決定問題は、対立する可能性のある異なる目的の最適化を必要とする。
本稿では,Advantage Actor-Critic (A2C)アルゴリズムに基づいて,単エージェントスケール非依存型多目的強化学習を開発する。
次に、収束保証を提供する考案された多目的アルゴリズムに対して収束解析を行う。
論文 参考訳(メタデータ) (2023-02-08T16:38:55Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。