論文の概要: MOMA-AC: A preference-driven actor-critic framework for continuous multi-objective multi-agent reinforcement learning
- arxiv url: http://arxiv.org/abs/2511.18181v1
- Date: Sat, 22 Nov 2025 20:24:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.676932
- Title: MOMA-AC: A preference-driven actor-critic framework for continuous multi-objective multi-agent reinforcement learning
- Title(参考訳): MOMA-AC:連続多目的マルチエージェント強化学習のための嗜好駆動型アクター批判フレームワーク
- Authors: Adam Callaghan, Karl Mason, Patrick Mannion,
- Abstract要約: 本稿では、連続状態とアクション空間のためのインナーループアクター批判フレームワークを初めて紹介する。
このフレームワークをTD3(Deep Deterministic Policy Gradient)とDDPG(Deep Deterministic Policy Gradient)でインスタンス化する。
このフレームワークは、マルチヘッドアクターネットワーク、中央集権的な批評家、客観的な嗜好条件アーキテクチャを組み合わせたものである。
- 参考スコア(独自算出の注目度): 3.312665722657581
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper addresses a critical gap in Multi-Objective Multi-Agent Reinforcement Learning (MOMARL) by introducing the first dedicated inner-loop actor-critic framework for continuous state and action spaces: Multi-Objective Multi-Agent Actor-Critic (MOMA-AC). Building on single-objective, single-agent algorithms, we instantiate this framework with Twin Delayed Deep Deterministic Policy Gradient (TD3) and Deep Deterministic Policy Gradient (DDPG), yielding MOMA-TD3 and MOMA-DDPG. The framework combines a multi-headed actor network, a centralised critic, and an objective preference-conditioning architecture, enabling a single neural network to encode the Pareto front of optimal trade-off policies for all agents across conflicting objectives in a continuous MOMARL setting. We also outline a natural test suite for continuous MOMARL by combining a pre-existing multi-agent single-objective physics simulator with its multi-objective single-agent counterpart. Evaluating cooperative locomotion tasks in this suite, we show that our framework achieves statistically significant improvements in expected utility and hypervolume relative to outer-loop and independent training baselines, while demonstrating stable scalability as the number of agents increases. These results establish our framework as a foundational step towards robust, scalable multi-objective policy learning in continuous multi-agent domains.
- Abstract(参考訳): 本稿では,MOMA-AC(Multi-Objective Multi-Agent Actor-Critic)という,連続的な状態と行動空間のための内ループアクター批判フレームワークを導入することで,MOMARL(Multi-Objective Multi-Agent Reinforcement Learning)における重要なギャップを解消する。
単目的単エージェントアルゴリズムに基づくこのフレームワークは、Twin Delayed Deep Deterministic Policy Gradient (TD3) と Deep Deterministic Policy Gradient (DDPG) でインスタンス化され、MOMA-TD3 と MOMA-DDPG が生成される。
このフレームワークは、マルチヘッドアクターネットワーク、中央集権的な批評家、および客観的な嗜好条件アーキテクチャを組み合わせることで、単一のニューラルネットワークが、連続的なMOMARL設定において、競合する目的を越えて、すべてのエージェントに対する最適なトレードオフポリシーのParetoフロントをエンコードすることを可能にする。
また,既存のマルチエージェント単一オブジェクト物理シミュレータとマルチオブジェクト単一エージェントシミュレータを組み合わせることで,連続MOMARLの自然なテストスイートを概説する。
このスイートで協調移動タスクを評価することで,本フレームワークは,外部ループおよび独立トレーニングベースラインと比較して,期待される実用性およびハイパーボリュームの統計的に有意な改善を実現し,エージェント数の増加とともに安定したスケーラビリティを示す。
これらの結果は、継続的マルチエージェントドメインにおける堅牢でスケーラブルな多目的ポリシー学習に向けた基礎的なステップとして、私たちのフレームワークを確立します。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Multi-Agent Inverse Q-Learning from Demonstrations [3.4136908117644698]
Multi-Agent Marginal Q-Learning from Demonstrations (MAMQL)は、マルチエージェントIRLのための新しいサンプル効率フレームワークである。
MAMQLは,従来のマルチエージェント手法よりも平均報酬率,サンプル効率,報酬回復率を2~5倍に向上させることを示した。
論文 参考訳(メタデータ) (2025-03-06T18:22:29Z) - MultiAgentBench: Evaluating the Collaboration and Competition of LLM agents [59.825725526176655]
大規模言語モデル(LLM)は、自律的なエージェントとして顕著な能力を示している。
既存のベンチマークでは、単一エージェントタスクにフォーカスするか、狭いドメインに限定されており、マルチエージェントのコーディネーションと競合のダイナミクスを捉えていない。
多様な対話シナリオにまたがってLLMベースのマルチエージェントシステムを評価するためのベンチマークであるMultiAgentBenchを紹介する。
論文 参考訳(メタデータ) (2025-03-03T05:18:50Z) - MOMAland: A Set of Benchmarks for Multi-Objective Multi-Agent Reinforcement Learning [7.822825134714791]
多目的多エージェント強化学習(MOMARL)は、学習プロセスにおいて複数の目的を考慮する必要がある複数のエージェントによる問題に対処する。
MOAlandは、多目的マルチエージェント強化学習のための標準化された環境の最初のコレクションである。
論文 参考訳(メタデータ) (2024-07-23T09:05:06Z) - Learning From Good Trajectories in Offline Multi-Agent Reinforcement
Learning [98.07495732562654]
オフラインマルチエージェント強化学習(MARL)は、事前コンパイルされたデータセットから効果的なマルチエージェントポリシーを学ぶことを目的としている。
オフラインのMARLが学んだエージェントは、しばしばこのランダムなポリシーを継承し、チーム全体のパフォーマンスを脅かす。
この問題に対処するために,共有個人軌道(SIT)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-28T18:11:26Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。