論文の概要: Aligning Individual and Collective Objectives in Multi-Agent Cooperation
- arxiv url: http://arxiv.org/abs/2402.12416v1
- Date: Mon, 19 Feb 2024 08:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:04:31.684263
- Title: Aligning Individual and Collective Objectives in Multi-Agent Cooperation
- Title(参考訳): 多エージェント協調における個人・集団目標の調整
- Authors: Yang Li, Wenhao Zhang, Jianhong Wang, Shao Zhang, Yali Du, Ying Wen,
Wei Pan
- Abstract要約: 学習力学を学習するために,異なるゲームとしてモデル化することで,混合モチベーションゲームを研究する。
本稿では, AgA (Altruistic Gradient Adjustment) という新しい最適化手法を提案する。
我々は、AgAにおける適切なアライメントウェイトの選択が、望ましくない解を効果的に回避しつつ、所望の解への収束を加速できるという理論的証明を提供する。
- 参考スコア(独自算出の注目度): 18.9890165928852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of multi-agent learning, the challenge of mixed-motive
cooperation is pronounced, given the inherent contradictions between individual
and collective goals. Current research in this domain primarily focuses on
incorporating domain knowledge into rewards or introducing additional
mechanisms to foster cooperation. However, many of these methods suffer from
the drawbacks of manual design costs and the lack of a theoretical grounding
convergence procedure to the solution. To address this gap, we approach the
mixed-motive game by modeling it as a differentiable game to study learning
dynamics. We introduce a novel optimization method named Altruistic Gradient
Adjustment (AgA) that employs gradient adjustments to novelly align individual
and collective objectives. Furthermore, we provide theoretical proof that the
selection of an appropriate alignment weight in AgA can accelerate convergence
towards the desired solutions while effectively avoiding the undesired ones.
The visualization of learning dynamics effectively demonstrates that AgA
successfully achieves alignment between individual and collective objectives.
Additionally, through evaluations conducted on established mixed-motive
benchmarks such as the public good game, Cleanup, Harvest, and our modified
mixed-motive SMAC environment, we validate AgA's capability to facilitate
altruistic and fair collaboration.
- Abstract(参考訳): マルチエージェント学習の分野では、個人と集団の目標の固有の矛盾を考えると、混合モチベーション協調の課題が顕著である。
このドメインにおける現在の研究は、主にドメイン知識を報酬に組み込むか、協力を促進するための追加のメカニズムを導入することに重点を置いている。
しかし、これらの手法の多くは、手動設計コストの欠点と、解に対する理論的基礎収束手順の欠如に悩まされている。
このギャップに対処するために,学習のダイナミクスを研究するための微分可能なゲームとしてモデル化することで,混合モチベーションゲームにアプローチする。
本稿では,個人と集団の目標を新規に調整するために,勾配調整を用いた利他的勾配調整(aga)という新しい最適化手法を提案する。
さらに, agaにおける適切なアライメント重みの選択は, 望ましくない解を効果的に回避しながら, 所望の解への収束を加速できるという理論的証明を与える。
学習ダイナミクスの可視化は、AgAが個人と集団の目標の整合性を効果的に達成していることを示す。
さらに,公益ゲーム,クリーンアップ,ハーベスト,修正された混合モチベーションSMAC環境など,確立された混合モチベーションベンチマークの評価を通じて,利他的かつ公正なコラボレーションを促進するAgAの能力を検証する。
関連論文リスト
- Controllable Preference Optimization: Toward Controllable
Multi-Objective Alignment [107.63756895544842]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Causal Coordinated Concurrent Reinforcement Learning [8.654978787096807]
本稿では,データ共有と協調探索のための新しいアルゴリズムフレームワークを提案する。
本アルゴリズムは,独立規制による個人差分制御モデルパラメータの抽出において,付加雑音モデル-混合モデル(ANM-MM)という形で因果推論アルゴリズムを利用する。
抽出したモデルパラメータの類似度に基づく新しいデータ共有方式を提案し, 自己回帰, 振り子, カートポールのスイングアップタスクのセットにおいて, 優れた学習速度を示す。
論文 参考訳(メタデータ) (2024-01-31T17:20:28Z) - Towards Full-scene Domain Generalization in Multi-agent Collaborative
Bird's Eye View Segmentation for Connected and Autonomous Driving [54.60458503590669]
協調認識の学習段階と推論段階の両方に適用可能な統合ドメイン一般化フレームワークを提案する。
我々は、AmpAug(Amplitude Augmentation)法を用いて、低周波画像の変動を増大させ、学習能力を拡大する。
推論フェーズでは、システム内ドメインアライメント機構を導入し、ドメインの不一致を減らし、潜在的に排除する。
論文 参考訳(メタデータ) (2023-11-28T12:52:49Z) - Towards Few-shot Coordination: Revisiting Ad-hoc Teamplay Challenge In
the Game of Hanabi [15.917861586043813]
現状のZSCアルゴリズムは、異なる学習手法で訓練されたエージェントとペアリングした場合、性能が劣っていることを示す。
我々は,MARL手法の適応性を評価するために,ハナビと呼ばれる人気のある協調型マルチエージェントゲームに基づくフレームワークを構築した。
論文 参考訳(メタデータ) (2023-08-20T14:44:50Z) - A Multiobjective Reinforcement Learning Framework for Microgrid Energy
Management [0.0]
マイクログリッド(MG)は、電力グリッドの脱炭と分散化のための有望なソリューションを提供する。
しかし、MGオペレーションは、しばしば、異なる利害関係者の利益を表す複数の目的について検討する。
本稿では,高次元目的空間を探索し,対立する目的間のトレードオフを明らかにする,多目的強化学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-17T17:52:57Z) - Joint Training of Deep Ensembles Fails Due to Learner Collusion [61.557412796012535]
機械学習モデルのアンサンブルは、単一のモデルよりもパフォーマンスを改善する強力な方法として確立されている。
伝統的に、アンサンブルアルゴリズムは、ジョイントパフォーマンスの最適化を目標として、ベースラーナーを独立または逐次訓練する。
アンサンブルの損失を最小化することは、実際にはほとんど適用されないことを示す。
論文 参考訳(メタデータ) (2023-01-26T18:58:07Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - A Hamiltonian Monte Carlo Method for Probabilistic Adversarial Attack
and Learning [122.49765136434353]
本稿では,HMCAM (Acumulated Momentum) を用いたハミルトニアンモンテカルロ法を提案する。
また, 対数的対数的対数的学習(Contrastive Adversarial Training, CAT)と呼ばれる新たな生成法を提案し, 対数的例の平衡分布にアプローチする。
いくつかの自然画像データセットと実用システムに関する定量的および定性的な解析により、提案アルゴリズムの優位性が確認された。
論文 参考訳(メタデータ) (2020-10-15T16:07:26Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Non-local Policy Optimization via Diversity-regularized Collaborative
Exploration [45.997521480637836]
多様性規則化協調探索(DiCE)と呼ばれる新しい非局所的政策最適化フレームワークを提案する。
DiCEは異種エージェントのグループを利用して環境を同時に探索し、収集した経験を共有する。
このフレームワークをオン・ポリティクスとオフ・ポリティクスの両方で実装し、実験結果から、DCEがベースラインよりも大幅に改善できることが示されている。
論文 参考訳(メタデータ) (2020-06-14T03:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。