論文の概要: Learning to Learn Group Alignment: A Self-Tuning Credo Framework with
Multiagent Teams
- arxiv url: http://arxiv.org/abs/2304.07337v1
- Date: Fri, 14 Apr 2023 18:16:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 19:29:15.046138
- Title: Learning to Learn Group Alignment: A Self-Tuning Credo Framework with
Multiagent Teams
- Title(参考訳): グループアライメントの学習 - マルチエージェントチームによる自己調整型クレドフレームワーク
- Authors: David Radke and Kyle Tilbury
- Abstract要約: マルチエージェントチームを持つ人口の混合インセンティブは、完全に協調したシステムよりも有利であることが示されている。
個人学習エージェントが報酬関数の様々な部分を通してインセンティブの構成を自己制御する枠組みを提案する。
- 参考スコア(独自算出の注目度): 1.370633147306388
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mixed incentives among a population with multiagent teams has been shown to
have advantages over a fully cooperative system; however, discovering the best
mixture of incentives or team structure is a difficult and dynamic problem. We
propose a framework where individual learning agents self-regulate their
configuration of incentives through various parts of their reward function.
This work extends previous work by giving agents the ability to dynamically
update their group alignment during learning and by allowing teammates to have
different group alignment. Our model builds on ideas from hierarchical
reinforcement learning and meta-learning to learn the configuration of a reward
function that supports the development of a behavioral policy. We provide
preliminary results in a commonly studied multiagent environment and find that
agents can achieve better global outcomes by self-tuning their respective group
alignment parameters.
- Abstract(参考訳): マルチエージェントチームを持つ人々の混合インセンティブは、完全な協調システムよりも優れていることが示されているが、最高のインセンティブやチーム構造の発見は困難かつダイナミックな問題である。
個人学習エージェントが報酬関数の様々な部分を通してインセンティブの構成を自己制御する枠組みを提案する。
この作業は、エージェントが学習中にグループアライメントを動的に更新し、チームメイトが異なるグループアライメントを持つようにすることで、以前の作業を拡張します。
我々のモデルは階層的な強化学習とメタラーニングのアイデアに基づいて、行動政策の開発を支援する報酬関数の構成を学習する。
一般に研究されているマルチエージェント環境において,エージェントがそれぞれのグループアライメントパラメータを自己調整することで,より優れたグローバルな結果を得ることができることを発見した。
関連論文リスト
- Peer Learning: Learning Complex Policies in Groups from Scratch via Action Recommendations [16.073203911932872]
ピアラーニングは、グループで学ぶエージェントのための新しい高度な強化学習フレームワークである。
ピアラーニングは,OpenAI Gymドメインのいくつかの課題において,単一エージェント学習とベースラインを上回り得ることを示す。
論文 参考訳(メタデータ) (2023-12-15T17:01:35Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - AgentVerse: Facilitating Multi-Agent Collaboration and Exploring
Emergent Behaviors [93.38830440346783]
本稿では,その構成をより高機能なシステムとして協調的に調整できるマルチエージェントフレームワークを提案する。
実験により,フレームワークが単一エージェントより優れたマルチエージェントグループを効果的に展開できることが実証された。
これらの振舞いの観点から、我々は、ポジティブなものを活用し、ネガティブなものを緩和し、マルチエージェントグループの協調可能性を改善するためのいくつかの戦略について議論する。
論文 参考訳(メタデータ) (2023-08-21T16:47:11Z) - ELIGN: Expectation Alignment as a Multi-Agent Intrinsic Reward [29.737986509769808]
本稿では,自己監督型固有報酬ELIGN-期待アライメントを提案する。
動物が周囲の動物と分散的に協力するのと同じように、期待アライメントで訓練されたエージェントは、隣人の期待に合う行動を学ぶ。
エージェント・コーディネーションは、エージェントがタスクを個別に分割し、コーディネーション・対称性を破り、敵を混乱させ、予測アライメントを通じて改善することを示す。
論文 参考訳(メタデータ) (2022-10-09T22:24:44Z) - The Importance of Credo in Multiagent Learning [5.334505575267924]
本稿では,複数のグループに構成されたシステム内のエージェントに対する,多目的最適化のモデルであるクレドを提案する。
結果から,チームメイトやシステム全体の利益は,グローバルな成果を達成するために完全に整合する必要はないことが示唆された。
論文 参考訳(メタデータ) (2022-04-15T14:12:13Z) - Generalization in Cooperative Multi-Agent Systems [49.16349318581611]
協調型マルチエージェントシステムのための組合せ一般化(CG)の理論的基盤について検討する。
CGは、幅広いアプリケーションにまたがる実用性とデプロイ性を向上させることができるため、自律システムにとって非常に望ましい特徴である。
論文 参考訳(メタデータ) (2022-01-31T21:39:56Z) - Structured Diversification Emergence via Reinforced Organization Control
and Hierarchical Consensus Learning [48.525944995851965]
組織制御の強化と階層的コンセンサス学習に基づく構造的多様化型MARLフレームワーク scRochico を提案する。
scRochicoは、探索効率と協力強度の観点から、現在のSOTAアルゴリズムよりもはるかに優れている。
論文 参考訳(メタデータ) (2021-02-09T11:46:12Z) - Natural Emergence of Heterogeneous Strategies in Artificially
Intelligent Competitive Teams [0.0]
我々はFortAttackと呼ばれる競合するマルチエージェント環境を開発し、2つのチームが互いに競合する。
このような振る舞いがチームの成功に繋がる場合、同種エージェント間の異種行動の自然発生を観察する。
我々は、進化した反対戦略を利用して、友好的なエージェントのための単一のポリシーを訓練するアンサンブルトレーニングを提案する。
論文 参考訳(メタデータ) (2020-07-06T22:35:56Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z) - Randomized Entity-wise Factorization for Multi-Agent Reinforcement
Learning [59.62721526353915]
実世界のマルチエージェント設定は、エージェントや非エージェントエンティティのタイプや量が異なるタスクを伴うことが多い。
我々の方法は、これらの共通点を活用することを目的としており、「観察対象のランダムに選択されたサブグループのみを考えるとき、各エージェントが期待する効用は何か?」という問いを投げかける。
論文 参考訳(メタデータ) (2020-06-07T18:28:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。