論文の概要: System Neural Diversity: Measuring Behavioral Heterogeneity in
Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2305.02128v1
- Date: Wed, 3 May 2023 13:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:47:02.568030
- Title: System Neural Diversity: Measuring Behavioral Heterogeneity in
Multi-Agent Learning
- Title(参考訳): システムニューラルダイバーシティ:マルチエージェント学習における行動不均一性の測定
- Authors: Matteo Bettini, Ajay Shankar, Amanda Prorok
- Abstract要約: マルチエージェントシステムにおける行動不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDが行動不均一性の潜伏特性を解析するための重要な診断ツールであることを示す。
- 参考スコア(独自算出の注目度): 7.22614468437919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary science provides evidence that diversity confers resilience.
Yet, traditional multi-agent reinforcement learning techniques commonly enforce
homogeneity to increase training sample efficiency. When a system of learning
agents is not constrained to homogeneous policies, individual agents may
develop diverse behaviors, resulting in emergent complementarity that benefits
the system. Despite this feat, there is a surprising lack of tools that measure
behavioral diversity in systems of learning agents. Such techniques would pave
the way towards understanding the impact of diversity in collective resilience
and performance. In this paper, we introduce System Neural Diversity (SND): a
measure of behavioral heterogeneity for multi-agent systems where agents have
stochastic policies. %over a continuous state space. We discuss and prove its
theoretical properties, and compare it with alternate, state-of-the-art
behavioral diversity metrics used in cross-disciplinary domains. Through
simulations of a variety of multi-agent tasks, we show how our metric
constitutes an important diagnostic tool to analyze latent properties of
behavioral heterogeneity. By comparing SND with task reward in static tasks,
where the problem does not change during training, we show that it is key to
understanding the effectiveness of heterogeneous vs homogeneous agents. In
dynamic tasks, where the problem is affected by repeated disturbances during
training, we show that heterogeneous agents are first able to learn specialized
roles that allow them to cope with the disturbance, and then retain these roles
when the disturbance is removed. SND allows a direct measurement of this latent
resilience, while other proxies such as task performance (reward) fail to.
- Abstract(参考訳): 進化科学は多様性が回復力を与える証拠を与える。
しかし、従来のマルチエージェント強化学習技術は、トレーニングサンプル効率を高めるために、通常均質性を強制する。
学習エージェントのシステムが均質なポリシーに制約されない場合、個々のエージェントは多様な振る舞いを発達させ、システムに恩恵をもたらす創発的な相補性をもたらす。
このような成果にもかかわらず、学習エージェントのシステムにおける行動の多様性を測定するツールが驚くほど欠如している。
このようなテクニックは、集団的レジリエンスとパフォーマンスにおける多様性の影響を理解するための道を開くだろう。
本稿では,エージェントが確率的ポリシーを持つマルチエージェントシステムにおける行動の多様性の尺度であるsystem neural diversity (snd)を提案する。
%であった。
我々は,その理論的性質を議論し,実証し,学際的領域で使用される交互に最先端の行動多様性指標と比較する。
様々なマルチエージェントタスクのシミュレーションを通じて、我々のメトリクスが、行動の不均一性の潜在性を分析する重要な診断ツールになることを示す。
静的タスクにおけるSNDとタスク報酬を比較することで、トレーニング中に問題が変化しない場合、不均一なエージェントと均質なエージェントの有効性を理解することが重要であることを示す。
学習中の障害が繰り返し発生する動的タスクでは,異種エージェントがまず,障害に対処するための専門的な役割を学習し,障害を取り除いた場合,それらの役割を保持できることが示されている。
SNDは遅延レジリエンスを直接測定するが、タスクパフォーマンス(逆)などの他のプロキシは失敗する。
関連論文リスト
- Episodic Future Thinking Mechanism for Multi-agent Reinforcement Learning [2.992602379681373]
本稿では、強化学習(RL)エージェントのためのエピソード・フューチャー・シンキング(EFT)機構を導入する。
まず、異種ポリシーのアンサンブルで多様な文字をキャプチャするマルチ文字ポリシーを開発する。
キャラクタが推論されると、エージェントはターゲットエージェントの今後のアクションを予測し、将来のシナリオをシミュレートする。
論文 参考訳(メタデータ) (2024-10-22T19:12:42Z) - Controlling Behavioral Diversity in Multi-Agent Reinforcement Learning [8.905920197601173]
本研究では,ある指標の正確な値に対する多様性を制御できるダイバーシティ制御(DiCo)を導入する。
マルチエージェント強化学習における性能向上とサンプル効率向上のための新しいパラダイムとしてDiCoを用いる方法を示す。
論文 参考訳(メタデータ) (2024-05-23T21:03:33Z) - SocialGFs: Learning Social Gradient Fields for Multi-Agent Reinforcement Learning [58.84311336011451]
マルチエージェント強化学習のための新しい勾配に基づく状態表現を提案する。
オフラインサンプルからソーシャルグラデーションフィールド(SocialGF)を学習するために,デノジングスコアマッチングを採用している。
実際に、SocialGFをMAPPOなど、広く使われているマルチエージェント強化学習アルゴリズムに統合する。
論文 参考訳(メタデータ) (2024-05-03T04:12:19Z) - DARLEI: Deep Accelerated Reinforcement Learning with Evolutionary
Intelligence [77.78795329701367]
本稿では,進化アルゴリズムと並列化強化学習を組み合わせたフレームワークであるDARLEIを提案する。
我々はDARLEIの性能を様々な条件で特徴付け、進化形態の多様性に影響を与える要因を明らかにした。
今後DARLEIを拡張して、よりリッチな環境における多様な形態素間の相互作用を取り入れていきたいと考えています。
論文 参考訳(メタデータ) (2023-12-08T16:51:10Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2023-01-17T19:05:17Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Towards Closing the Sim-to-Real Gap in Collaborative Multi-Robot Deep
Reinforcement Learning [0.06554326244334865]
分散マルチロボットシステムにおいて,マルチエージェント強化学習が現実とのギャップを埋める方法について分析する。
分散強化学習におけるセンサ,キャリブレーション,精度のミスマッチの効果について紹介する。
異なる種類の摂動と、それらの摂動を経験するエージェントの数の両方が協調学習活動にどのように影響するかについて論じる。
論文 参考訳(メタデータ) (2020-08-18T11:57:33Z) - Effective Diversity in Population Based Reinforcement Learning [38.62641968788987]
人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
論文 参考訳(メタデータ) (2020-02-03T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。