論文の概要: Aligning Individual and Collective Objectives in Multi-Agent Cooperation
- arxiv url: http://arxiv.org/abs/2402.12416v1
- Date: Mon, 19 Feb 2024 08:18:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 19:04:31.684263
- Title: Aligning Individual and Collective Objectives in Multi-Agent Cooperation
- Title(参考訳): 多エージェント協調における個人・集団目標の調整
- Authors: Yang Li, Wenhao Zhang, Jianhong Wang, Shao Zhang, Yali Du, Ying Wen,
Wei Pan
- Abstract要約: 学習力学を学習するために,異なるゲームとしてモデル化することで,混合モチベーションゲームを研究する。
本稿では, AgA (Altruistic Gradient Adjustment) という新しい最適化手法を提案する。
我々は、AgAにおける適切なアライメントウェイトの選択が、望ましくない解を効果的に回避しつつ、所望の解への収束を加速できるという理論的証明を提供する。
- 参考スコア(独自算出の注目度): 18.9890165928852
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the field of multi-agent learning, the challenge of mixed-motive
cooperation is pronounced, given the inherent contradictions between individual
and collective goals. Current research in this domain primarily focuses on
incorporating domain knowledge into rewards or introducing additional
mechanisms to foster cooperation. However, many of these methods suffer from
the drawbacks of manual design costs and the lack of a theoretical grounding
convergence procedure to the solution. To address this gap, we approach the
mixed-motive game by modeling it as a differentiable game to study learning
dynamics. We introduce a novel optimization method named Altruistic Gradient
Adjustment (AgA) that employs gradient adjustments to novelly align individual
and collective objectives. Furthermore, we provide theoretical proof that the
selection of an appropriate alignment weight in AgA can accelerate convergence
towards the desired solutions while effectively avoiding the undesired ones.
The visualization of learning dynamics effectively demonstrates that AgA
successfully achieves alignment between individual and collective objectives.
Additionally, through evaluations conducted on established mixed-motive
benchmarks such as the public good game, Cleanup, Harvest, and our modified
mixed-motive SMAC environment, we validate AgA's capability to facilitate
altruistic and fair collaboration.
- Abstract(参考訳): マルチエージェント学習の分野では、個人と集団の目標の固有の矛盾を考えると、混合モチベーション協調の課題が顕著である。
このドメインにおける現在の研究は、主にドメイン知識を報酬に組み込むか、協力を促進するための追加のメカニズムを導入することに重点を置いている。
しかし、これらの手法の多くは、手動設計コストの欠点と、解に対する理論的基礎収束手順の欠如に悩まされている。
このギャップに対処するために,学習のダイナミクスを研究するための微分可能なゲームとしてモデル化することで,混合モチベーションゲームにアプローチする。
本稿では,個人と集団の目標を新規に調整するために,勾配調整を用いた利他的勾配調整(aga)という新しい最適化手法を提案する。
さらに, agaにおける適切なアライメント重みの選択は, 望ましくない解を効果的に回避しながら, 所望の解への収束を加速できるという理論的証明を与える。
学習ダイナミクスの可視化は、AgAが個人と集団の目標の整合性を効果的に達成していることを示す。
さらに,公益ゲーム,クリーンアップ,ハーベスト,修正された混合モチベーションSMAC環境など,確立された混合モチベーションベンチマークの評価を通じて,利他的かつ公正なコラボレーションを促進するAgAの能力を検証する。
関連論文リスト
- Efficient Adaptation in Mixed-Motive Environments via Hierarchical Opponent Modeling and Planning [51.52387511006586]
本稿では,HOP(Hierarchical Opponent Modeling and Planning)を提案する。
HOPは階層的に2つのモジュールから構成される: 相手の目標を推論し、対応する目標条件のポリシーを学ぶ、反対モデリングモジュール。
HOPは、さまざまな未確認エージェントと相互作用する際、優れた少数ショット適応能力を示し、セルフプレイのシナリオで優れている。
論文 参考訳(メタデータ) (2024-06-12T08:48:06Z) - Large Language Model-based Human-Agent Collaboration for Complex Task
Solving [94.3914058341565]
複雑なタスク解決のためのLarge Language Models(LLM)に基づくヒューマンエージェントコラボレーションの問題を紹介する。
Reinforcement Learning-based Human-Agent Collaboration method, ReHACを提案する。
このアプローチには、タスク解決プロセスにおける人間の介入の最も急進的な段階を決定するために設計されたポリシーモデルが含まれている。
論文 参考訳(メタデータ) (2024-02-20T11:03:36Z) - Joint Intrinsic Motivation for Coordinated Exploration in Multi-Agent
Deep Reinforcement Learning [0.0]
本稿では,エージェントが一括して斬新な行動を示すような報奨戦略を提案する。
ジムは連続した環境で機能するように設計されたノベルティの集中的な尺度に基づいて共同軌道に報いる。
その結果、最適戦略が高レベルの調整を必要とするタスクの解決には、共同探索が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2024-02-06T13:02:00Z) - Reducing Optimism Bias in Incomplete Cooperative Games [0.0]
協調ゲームにおける連立価値を明らかにするためのシーケンスの最適化を目的としたフレームワークを提案する。
筆者らのコントリビューションは3つある: (i) 個々のプレイヤーの楽観的な連立価値の達成と、より効率的な最適化を促進するための分析的特性について検討し、 (ii) オフライン・オンライン両方の方法で追加連立価値を開示し、このギャップを最小限に抑える方法、 (iii) 実践シナリオにおけるアルゴリズムの性能を実証的に示す。
論文 参考訳(メタデータ) (2024-02-02T21:58:26Z) - Cooperation Dynamics in Multi-Agent Systems: Exploring Game-Theoretic Scenarios with Mean-Field Equilibria [0.0]
本稿では,ゲーム理論のシナリオ,すなわちIterated Prisoner's Dilemmaにおける協調を呼び起こす戦略について検討する。
既存の協調戦略は、繰り返しゲームにおけるグループ指向行動を促進する効果について分析する。
この研究は、指数関数的に増加するエージェント集団のシナリオにまで及んでいる。
論文 参考訳(メタデータ) (2023-09-28T08:57:01Z) - Tackling Cooperative Incompatibility for Zero-Shot Human-AI Coordination [36.33334853998621]
協調的オープンエンド・ラーニング(COLE)フレームワークを導入し,学習における協調的非互換性を解決する。
COLEは、グラフ理論の観点を用いて、2人のプレイヤーと協調ゲームにおけるオープンエンド目標を定式化し、各戦略の協調能力を評価し、特定する。
我々は,COLEが理論的および経験的分析から協調的不整合性を効果的に克服できることを示した。
論文 参考訳(メタデータ) (2023-06-05T16:51:38Z) - Any-Play: An Intrinsic Augmentation for Zero-Shot Coordination [0.4153433779716327]
我々は、協調型AIを評価するための代替基準を定式化し、この基準を「アルゴリズム間クロスプレイ(inter-algorithm cross-play)」と呼ぶ。
このパラダイムでは,Other-Play や Off-Belief Learning といった,最先端の協調型AIアルゴリズムが低性能であることを示す。
本稿では,Any-Play学習のアルゴリズムをアルゴリズム間クロスプレイ設定に一般化するために,Any-Play学習の拡張を提案する。
論文 参考訳(メタデータ) (2022-01-28T21:43:58Z) - ACP++: Action Co-occurrence Priors for Human-Object Interaction
Detection [102.9428507180728]
ヒューマン・オブジェクト・インタラクション(HOI)検出のタスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関関係と反相関が存在することを観察した。
我々は、これらの先行知識を学習し、特に稀なクラスにおいて、より効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2021-09-09T06:02:50Z) - Cooperative Exploration for Multi-Agent Deep Reinforcement Learning [127.4746863307944]
深層強化学習のための協調型マルチエージェント探索(CMAE)を提案する。
ゴールは正規化エントロピーに基づく手法により、複数の射影状態空間から選択される。
CMAEが様々なタスクのベースラインを一貫して上回っていることを実証する。
論文 参考訳(メタデータ) (2021-07-23T20:06:32Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Detecting Human-Object Interactions with Action Co-occurrence Priors [108.31956827512376]
人-物間相互作用(HOI)検出タスクにおける一般的な問題は、多数のHOIクラスが少数のラベル付き例しか持たないことである。
我々は、人間と物体の相互作用の間に自然の相関と反相関が存在することを観察した。
我々はこれらの先行知識を学習し、特に稀なクラスにおいてより効果的な訓練に活用する手法を提案する。
論文 参考訳(メタデータ) (2020-07-17T02:47:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。