論文の概要: Achieving Collective Welfare in Multi-Agent Reinforcement Learning via Suggestion Sharing
- arxiv url: http://arxiv.org/abs/2412.12326v1
- Date: Mon, 16 Dec 2024 19:44:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 14:00:05.322439
- Title: Achieving Collective Welfare in Multi-Agent Reinforcement Learning via Suggestion Sharing
- Title(参考訳): 提案共有による多エージェント強化学習における集団福祉の実現
- Authors: Yue Jin, Shuangqing Wei, Giovanni Montana,
- Abstract要約: 自己利益と集団福祉の対立は、しばしば共有福祉を達成する努力を妨げる。
この問題に対処するために,マルチエージェント強化学習(MARL)を提案する。
伝統的なMARLソリューションには、報酬、価値、ポリシーを共有すること、あるいはエージェントに最適なポリシーを学習するよう促すために固有の報酬を設計することが含まれる。
Suggestion Sharing(SS)に基づく新しいMARLアプローチを導入し、エージェントはアクション提案のみを交換する。
- 参考スコア(独自算出の注目度): 12.167248367980449
- License:
- Abstract: In human society, the conflict between self-interest and collective well-being often obstructs efforts to achieve shared welfare. Related concepts like the Tragedy of the Commons and Social Dilemmas frequently manifest in our daily lives. As artificial agents increasingly serve as autonomous proxies for humans, we propose using multi-agent reinforcement learning (MARL) to address this issue - learning policies to maximise collective returns even when individual agents' interests conflict with the collective one. Traditional MARL solutions involve sharing rewards, values, and policies or designing intrinsic rewards to encourage agents to learn collectively optimal policies. We introduce a novel MARL approach based on Suggestion Sharing (SS), where agents exchange only action suggestions. This method enables effective cooperation without the need to design intrinsic rewards, achieving strong performance while revealing less private information compared to sharing rewards, values, or policies. Our theoretical analysis establishes a bound on the discrepancy between collective and individual objectives, demonstrating how sharing suggestions can align agents' behaviours with the collective objective. Experimental results demonstrate that SS performs competitively with baselines that rely on value or policy sharing or intrinsic rewards.
- Abstract(参考訳): 人間社会では、自己利益と集団幸福の対立が、共有福祉を達成するための努力を妨げることがしばしばある。
庶民の悲劇や社会ジレンマといった関連する概念は、私たちの日常生活に頻繁に現れます。
人工エージェントが人間の自律的プロキシとして機能するにつれて、この問題に対処するためにマルチエージェント強化学習(MARL)を用いることを提案する。
伝統的なMARLソリューションには、報酬、価値、ポリシーを共有すること、あるいはエージェントに最適なポリシーを学習するよう促すために固有の報酬を設計することが含まれる。
Suggestion Sharing(SS)に基づく新しいMARLアプローチを導入し、エージェントはアクション提案のみを交換する。
この方法は、本質的な報酬を設計することなく効果的な協力を可能にし、報酬、価値、ポリシーを共有することに比べて、個人の情報が少ないことを明らかにしながら、強いパフォーマンスを達成する。
我々の理論的分析は、集団的目的と個人的目的の相違を定め、提案を共有することによってエージェントの行動と集団的目的との整合性を示す。
実験の結果、SSは、価値や政策共有、本質的な報酬に依存するベースラインと競争的に機能することが示された。
関連論文リスト
- Learning to Balance Altruism and Self-interest Based on Empathy in Mixed-Motive Games [47.8980880888222]
マルチエージェントのシナリオは、しばしば混合モチベーションを伴い、潜在的な搾取に対する自己保護が可能な利他的エージェントを要求する。
共感に基づくアルトリズムと自己利益のバランスをとるためのLASE学習を提案する。
LASEはその報酬の一部を共同プレイヤにギフトとして割り当て、このアロケーションは社会的関係に基づいて動的に適応する。
論文 参考訳(メタデータ) (2024-10-10T12:30:56Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Learning Roles with Emergent Social Value Orientations [49.16026283952117]
本稿では、人間社会における典型的な「労働・役割の分断」のメカニズムを紹介する。
我々は、社会的価値指向(SVO)を伴う時空間的社会的ジレンマ(ISD)に対する有望な解決策を提供する。
創発的SVOによる学習ロール(RESVO)と呼ばれる新しい学習フレームワークは、役割の学習を社会的価値指向の出現に変換するために提案されている。
論文 参考訳(メタデータ) (2023-01-31T17:54:09Z) - Iterated Reasoning with Mutual Information in Cooperative and Byzantine
Decentralized Teaming [0.0]
我々は,政策グラディエント(PG)の下での最適化において,エージェントの方針がチームメイトの方針に準じることが,本質的に相互情報(MI)の下限を最大化することを示す。
我々の手法であるInfoPGは、創発的協調行動の学習におけるベースラインを上回り、分散協調型MARLタスクにおける最先端の課題を設定します。
論文 参考訳(メタデータ) (2022-01-20T22:54:32Z) - MORAL: Aligning AI with Human Norms through Multi-Objective Reinforced
Active Learning [14.06682547001011]
最先端の手法は通常、単一の報酬モデルを学ぶことに集中します。
本稿では,多目的強化型アクティブラーニング(MORAL)を提案する。
提案手法では,複数ポリシの計算を不要にしながら,さまざまな好みに対して深いRLエージェントを対話的にチューニングすることが可能である。
論文 参考訳(メタデータ) (2021-12-30T19:21:03Z) - Normative Disagreement as a Challenge for Cooperative AI [56.34005280792013]
典型的な協調誘導学習アルゴリズムは、問題の解決に協力することができないと論じる。
我々は,ノルム適応政策のクラスを開発し,これらが協調性を著しく向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2021-11-27T11:37:42Z) - Cooperative and Competitive Biases for Multi-Agent Reinforcement
Learning [12.676356746752893]
マルチエージェント強化学習(MARL)アルゴリズムのトレーニングは,単一エージェント強化学習アルゴリズムのトレーニングよりも難しい。
本稿では,他のエージェントの偏りのある行動情報を用いたMARL訓練を促進するアルゴリズムを提案する。
本アルゴリズムは, 多様な協調競合環境において, 既存のアルゴリズムを上回っていることを実証した。
論文 参考訳(メタデータ) (2021-01-18T05:52:22Z) - Cooperative-Competitive Reinforcement Learning with History-Dependent
Rewards [12.41853254173419]
エージェントの意思決定問題は,対話的部分観測可能なマルコフ決定プロセス(I-POMDP)としてモデル化可能であることを示す。
本稿では,対話型アドバンテージアクター批判手法(IA2C$+$)を提案する。
実験の結果、IA2C$+$は他のいくつかのベースラインよりも早く、より堅牢に最適なポリシーを学ぶことが示されている。
論文 参考訳(メタデータ) (2020-10-15T21:37:07Z) - UneVEn: Universal Value Exploration for Multi-Agent Reinforcement
Learning [53.73686229912562]
我々はUniversal Value Exploration(UneVEn)と呼ばれる新しいMARLアプローチを提案する。
UneVEnは、一連の関連するタスクと、普遍的な後継機能の線形分解を同時に学習する。
一連の探索ゲームにおける実証的な結果、エージェント間の重要な調整を必要とする協調捕食・捕食作業への挑戦、およびStarCraft IIのマイクロマネジメントベンチマークは、UneVEnが他の最先端のMARLメソッドが失敗するタスクを解決できることを示している。
論文 参考訳(メタデータ) (2020-10-06T19:08:47Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。