論文の概要: System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2305.02128v2
- Date: Tue, 10 Sep 2024 16:42:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-12 00:08:16.352482
- Title: System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning
- Title(参考訳): システムニューラルダイバーシティ:マルチエージェント学習における行動的不均一性の測定
- Authors: Matteo Bettini, Ajay Shankar, Amanda Prorok,
- Abstract要約: マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
- 参考スコア(独自算出の注目度): 8.280943341629161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary science provides evidence that diversity confers resilience in natural systems. Yet, traditional multi-agent reinforcement learning techniques commonly enforce homogeneity to increase training sample efficiency. When a system of learning agents is not constrained to homogeneous policies, individuals may develop diverse behaviors, resulting in emergent complementarity that benefits the system. Despite this, there is a surprising lack of tools that quantify behavioral diversity. Such techniques would pave the way towards understanding the impact of diversity in collective artificial intelligence and enabling its control. In this paper, we introduce System Neural Diversity (SND): a measure of behavioral heterogeneity in multi-agent systems. We discuss and prove its theoretical properties, and compare it with alternate, state-of-the-art behavioral diversity metrics used in the robotics domain. Through simulations of a variety of cooperative multi-robot tasks, we show how our metric constitutes an important tool that enables measurement and control of behavioral heterogeneity. In dynamic tasks, where the problem is affected by repeated disturbances during training, we show that SND allows us to measure latent resilience skills acquired by the agents, while other proxies, such as task performance (reward), fail to. Finally, we show how the metric can be employed to control diversity, allowing us to enforce a desired heterogeneity set-point or range. We demonstrate how this paradigm can be used to bootstrap the exploration phase, finding optimal policies faster, thus enabling novel and more efficient MARL paradigms.
- Abstract(参考訳): 進化科学は、多様性が自然システムにレジリエンスをもたらす証拠を提供する。
しかし、従来のマルチエージェント強化学習技術は、トレーニングサンプル効率を高めるために、通常均質性を強制する。
学習エージェントのシステムが均質なポリシーに制約されない場合、個人は多様な振る舞いを発達させ、システムに恩恵をもたらす創発的な相補性をもたらす。
それにもかかわらず、行動の多様性を定量化するツールが驚くほど不足している。
このような技術は、集団人工知能における多様性の影響を理解し、その制御を可能にするための道を開くだろう。
本稿では,マルチエージェントシステムにおける行動の不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
本稿では,その理論的特性を論じ,ロボット工学領域で用いられる,最先端の行動多様性指標と比較する。
様々な協調型マルチロボットタスクのシミュレーションを通じて,我々の測定値が,行動の不均一性の測定と制御を可能にする重要なツールであることを示す。
トレーニング中に繰り返し発生する障害によって問題が発生する動的タスクでは、SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
最後に、このメトリクスが多様性を制御するためにどのように使われるかを示し、所望の異種性セットポイントや範囲を強制することができる。
我々は,このパラダイムを探索フェーズのブートストラップに利用し,最適なポリシを高速に発見することで,新規で効率的なMARLパラダイムを実現する方法について実証する。
関連論文リスト
- Episodic Future Thinking Mechanism for Multi-agent Reinforcement Learning [2.992602379681373]
本稿では、強化学習(RL)エージェントのためのエピソード・フューチャー・シンキング(EFT)機構を導入する。
まず、異種ポリシーのアンサンブルで多様な文字をキャプチャするマルチ文字ポリシーを開発する。
キャラクタが推論されると、エージェントはターゲットエージェントの今後のアクションを予測し、将来のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-10-22T19:12:42Z) - Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning [8.905920197601173]
本研究では,ある指標の正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を導入する。
マルチエージェント強化学習における性能向上とサンプル効率向上のための新しいパラダイムとしてDiCoを用いる方法を示す。
論文 参考訳(メタデータ) (2024-05-23T21:03:33Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2023-01-17T19:05:17Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Effective Diversity in Population Based Reinforcement Learning [38.62641968788987]
人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
論文 参考訳(メタデータ) (2020-02-03T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。