論文の概要: Achieving Equilibrium under Utility Heterogeneity: An Agent-Attention Framework for Multi-Agent Multi-Objective Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2511.08926v1
- Date: Thu, 13 Nov 2025 01:18:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.30486
- Title: Achieving Equilibrium under Utility Heterogeneity: An Agent-Attention Framework for Multi-Agent Multi-Objective Reinforcement Learning
- Title(参考訳): マルチエージェント多目的強化学習のためのエージェント・アテンション・フレームワーク
- Authors: Zhuhui Li, Chunbo Luo, Liming Huang, Luyu Qi, Geyong Min,
- Abstract要約: 本稿では,エージェント型マルチエージェント多目的強化学習(AA-MAMORL)フレームワークを提案する。
我々のアプローチは、訓練中に、他のエージェントのユーティリティ機能と関連するポリシーに対する共同信条を暗黙的に学習する。
実行中、各エージェントは、BNEを近似するために、ローカル観測とプライベートユーティリティ機能に基づいて、独立してアクションを選択する。
- 参考スコア(独自算出の注目度): 30.138706163658597
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-agent multi-objective systems (MAMOS) have emerged as powerful frameworks for modelling complex decision-making problems across various real-world domains, such as robotic exploration, autonomous traffic management, and sensor network optimisation. MAMOS offers enhanced scalability and robustness through decentralised control and more accurately reflects inherent trade-offs between conflicting objectives. In MAMOS, each agent uses utility functions that map return vectors to scalar values. Existing MAMOS optimisation methods face challenges in handling heterogeneous objective and utility function settings, where training non-stationarity is intensified due to private utility functions and the associated policies. In this paper, we first theoretically prove that direct access to, or structured modeling of, global utility functions is necessary for the Bayesian Nash Equilibrium under decentralised execution constraints. To access the global utility functions while preserving the decentralised execution, we propose an Agent-Attention Multi-Agent Multi-Objective Reinforcement Learning (AA-MAMORL) framework. Our approach implicitly learns a joint belief over other agents' utility functions and their associated policies during centralised training, effectively mapping global states and utilities to each agent's policy. In execution, each agent independently selects actions based on local observations and its private utility function to approximate a BNE, without relying on inter-agent communication. We conduct comprehensive experiments in both a custom-designed MAMO Particle environment and the standard MOMALand benchmark. The results demonstrate that access to global preferences and our proposed AA-MAMORL significantly improve performance and consistently outperform state-of-the-art methods.
- Abstract(参考訳): マルチエージェント多目的システム(MAMOS)は、ロボット探索、自律交通管理、センサネットワーク最適化など、さまざまな現実世界領域にわたる複雑な意思決定問題をモデル化するための強力なフレームワークとして登場した。
MAMOSは分散制御によって拡張されたスケーラビリティと堅牢性を提供し、矛盾する目標間の固有のトレードオフをより正確に反映します。
MAMOSでは、各エージェントは戻りベクトルをスカラー値にマッピングするユーティリティ関数を使用する。
既存のMAMOS最適化手法は、非定常性のトレーニングを、プライベートユーティリティ機能と関連するポリシーによって強化する、異質な目的とユーティリティ関数設定を扱う際の課題に直面している。
本稿では、まず、分散実行制約下でのベイズナッシュ平衡において、グローバルユーティリティ関数の直接アクセス、あるいは構造化されたモデリングが重要であることを理論的に証明する。
分散実行を維持しながらグローバルユーティリティ機能にアクセスするために,エージェント・エージェント多目的強化学習(AA-MAMORL)フレームワークを提案する。
本手法は,各エージェントの政策にグローバルな状態とユーティリティを効果的にマッピングすることで,他のエージェントのユーティリティ機能とその関連するポリシに対する共同信条を暗黙的に学習する。
実行中、各エージェントは、エージェント間通信に頼ることなく、ローカル観測とプライベートユーティリティ機能に基づいてアクションを独立に選択し、BNEを近似する。
我々は、カスタム設計のMAMO Particle環境と標準のMOMALandベンチマークの両方で包括的な実験を行う。
その結果,グローバルな選好やAA-MAMORLのアクセスは性能を向上し,常に最先端の手法よりも優れた結果が得られた。
関連論文リスト
- Multi-Agent Tool-Integrated Policy Optimization [67.12841355267678]
大規模言語モデル(LLM)は、知識集約的かつ複雑な推論タスクに対して、多ターンツール統合計画にますます依存している。
既存の実装は通常、単一のエージェントに依存するが、コンテキスト長とノイズの多いツールレスポンスに悩まされる。
ツール統合マルチエージェントフレームワークの効果的な強化学習をサポートする方法はない。
論文 参考訳(メタデータ) (2025-10-06T10:44:04Z) - Application of LLM Guided Reinforcement Learning in Formation Control with Collision Avoidance [1.1718316049475228]
マルチエージェントシステム(Multi-Agent Systems、MAS)は、個々のエージェントの協調作業を通じて複雑な目的を達成する。
本稿では,効果的な報酬関数を設計する上での課題を克服する新しい枠組みを提案する。
タスクの優先順位付けにおいて,大規模言語モデル(LLM)を付与することにより,オンライン上で動的に調整可能な報酬関数を生成する。
論文 参考訳(メタデータ) (2025-07-22T09:26:00Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - Leveraging Large Language Models for Effective and Explainable Multi-Agent Credit Assignment [4.406086834602686]
シーケンス改善と帰属の2つのパターン認識問題に対する信用割当の修正方法を示す。
提案手法では,各エージェントの個々の貢献に基づいて,環境報酬を数値的に分解する集中型報酬批判を利用する。
どちらの手法も、Level-Based ForagingやRobotic Warehouse、衝突に関連する安全性の制約を取り入れたSpaceworldベンチマークなど、さまざまなベンチマークにおいて、最先端の手法よりもはるかに優れています。
論文 参考訳(メタデータ) (2025-02-24T05:56:47Z) - SACHA: Soft Actor-Critic with Heuristic-Based Attention for Partially
Observable Multi-Agent Path Finding [3.4260993997836753]
我々は,ヒューリスティック・ベース・アテンション(SACHA)を用いたソフト・アクター・クリティカル(Soft Actor-Critic)と呼ばれる新しいマルチエージェント・アクター・クリティカルな手法を提案する。
SACHAは、各エージェントが最短経路ガイダンスに選択的に注目するニューラルネットワークを、その視野内の複数のエージェントから学習する。
我々は、いくつかの最先端の学習ベースMAPF法に対して、成功率とソリューション品質に関して、良好な改善を示す。
論文 参考訳(メタデータ) (2023-07-05T23:36:33Z) - Macro-Action-Based Multi-Agent/Robot Deep Reinforcement Learning under
Partial Observability [4.111899441919164]
最先端のマルチエージェント強化学習(MARL)手法は、様々な複雑な問題に対して有望な解決策を提供してきた。
まず,MacDec-POMDPに対する値に基づくRL手法を提案する。
3つの訓練パラダイムの下でマクロアクションに基づくポリシー勾配アルゴリズムを定式化する。
論文 参考訳(メタデータ) (2022-09-20T21:13:51Z) - Scalable Multi-Agent Model-Based Reinforcement Learning [1.95804735329484]
我々は,モデルベース強化学習(MBRL)を用いて協調環境における集中型トレーニングをさらに活用するMAMBAという新しい手法を提案する。
エージェント間のコミュニケーションは、実行期間中に各エージェントのワールドモデルを維持するのに十分であり、一方、仮想ロールアウトはトレーニングに使用でき、環境と対話する必要がなくなる。
論文 参考訳(メタデータ) (2022-05-25T08:35:00Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - F2A2: Flexible Fully-decentralized Approximate Actor-critic for
Cooperative Multi-agent Reinforcement Learning [110.35516334788687]
分散マルチエージェント強化学習アルゴリズムは複雑なアプリケーションでは実践的でないことがある。
本稿では,大規模で汎用的なマルチエージェント設定を扱える,柔軟な完全分散型アクター批判型MARLフレームワークを提案する。
当社のフレームワークは,大規模環境におけるスケーラビリティと安定性を実現し,情報伝達を低減できる。
論文 参考訳(メタデータ) (2020-04-17T14:56:29Z) - FACMAC: Factored Multi-Agent Centralised Policy Gradients [103.30380537282517]
FACtored Multi-Agent Centralized Policy gradients (FACMAC)を提案する。
離散的および連続的な行動空間における協調的マルチエージェント強化学習のための新しい手法である。
我々は,マルチエージェント粒子環境の変動に対するFACMAC,新しいマルチエージェント MuJoCo ベンチマーク,およびStarCraft II マイクロマネジメントタスクの挑戦的セットについて評価した。
論文 参考訳(メタデータ) (2020-03-14T21:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。