論文の概要: System Neural Diversity: Measuring Behavioral Heterogeneity in
Multi-Agent Learning
- arxiv url: http://arxiv.org/abs/2305.02128v1
- Date: Wed, 3 May 2023 13:58:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-04 14:47:02.568030
- Title: System Neural Diversity: Measuring Behavioral Heterogeneity in
Multi-Agent Learning
- Title(参考訳): システムニューラルダイバーシティ:マルチエージェント学習における行動不均一性の測定
- Authors: Matteo Bettini, Ajay Shankar, Amanda Prorok
- Abstract要約: マルチエージェントシステムにおける行動不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDが行動不均一性の潜伏特性を解析するための重要な診断ツールであることを示す。
- 参考スコア(独自算出の注目度): 7.22614468437919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evolutionary science provides evidence that diversity confers resilience.
Yet, traditional multi-agent reinforcement learning techniques commonly enforce
homogeneity to increase training sample efficiency. When a system of learning
agents is not constrained to homogeneous policies, individual agents may
develop diverse behaviors, resulting in emergent complementarity that benefits
the system. Despite this feat, there is a surprising lack of tools that measure
behavioral diversity in systems of learning agents. Such techniques would pave
the way towards understanding the impact of diversity in collective resilience
and performance. In this paper, we introduce System Neural Diversity (SND): a
measure of behavioral heterogeneity for multi-agent systems where agents have
stochastic policies. %over a continuous state space. We discuss and prove its
theoretical properties, and compare it with alternate, state-of-the-art
behavioral diversity metrics used in cross-disciplinary domains. Through
simulations of a variety of multi-agent tasks, we show how our metric
constitutes an important diagnostic tool to analyze latent properties of
behavioral heterogeneity. By comparing SND with task reward in static tasks,
where the problem does not change during training, we show that it is key to
understanding the effectiveness of heterogeneous vs homogeneous agents. In
dynamic tasks, where the problem is affected by repeated disturbances during
training, we show that heterogeneous agents are first able to learn specialized
roles that allow them to cope with the disturbance, and then retain these roles
when the disturbance is removed. SND allows a direct measurement of this latent
resilience, while other proxies such as task performance (reward) fail to.
- Abstract(参考訳): 進化科学は多様性が回復力を与える証拠を与える。
しかし、従来のマルチエージェント強化学習技術は、トレーニングサンプル効率を高めるために、通常均質性を強制する。
学習エージェントのシステムが均質なポリシーに制約されない場合、個々のエージェントは多様な振る舞いを発達させ、システムに恩恵をもたらす創発的な相補性をもたらす。
このような成果にもかかわらず、学習エージェントのシステムにおける行動の多様性を測定するツールが驚くほど欠如している。
このようなテクニックは、集団的レジリエンスとパフォーマンスにおける多様性の影響を理解するための道を開くだろう。
本稿では,エージェントが確率的ポリシーを持つマルチエージェントシステムにおける行動の多様性の尺度であるsystem neural diversity (snd)を提案する。
%であった。
我々は,その理論的性質を議論し,実証し,学際的領域で使用される交互に最先端の行動多様性指標と比較する。
様々なマルチエージェントタスクのシミュレーションを通じて、我々のメトリクスが、行動の不均一性の潜在性を分析する重要な診断ツールになることを示す。
静的タスクにおけるSNDとタスク報酬を比較することで、トレーニング中に問題が変化しない場合、不均一なエージェントと均質なエージェントの有効性を理解することが重要であることを示す。
学習中の障害が繰り返し発生する動的タスクでは,異種エージェントがまず,障害に対処するための専門的な役割を学習し,障害を取り除いた場合,それらの役割を保持できることが示されている。
SNDは遅延レジリエンスを直接測定するが、タスクパフォーマンス(逆)などの他のプロキシは失敗する。
関連論文リスト
- Causal Graph ODE: Continuous Treatment Effect Modeling in Multi-agent
Dynamical Systems [70.84976977950075]
実世界のマルチエージェントシステムは、しばしば動的で連続的であり、エージェントは時間とともにその軌道や相互作用を共進化させ、変化させる。
本稿では,グラフニューラルネットワーク(GNN)をODE関数として,エージェント間の連続的な相互作用をキャプチャする新しいモデルを提案する。
我々のモデルの主な革新は、治療の時間依存表現を学習し、ODE関数にそれらを組み込むことで、潜在的な結果の正確な予測を可能にすることである。
論文 参考訳(メタデータ) (2024-02-29T23:07:07Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Source-free Domain Adaptation Requires Penalized Diversity [60.04618512479438]
ソースデータがない場合、異なるドメイン間の知識伝達に対処するために、ソースフリードメイン適応(SFDA)が導入された。
教師なしのFDAでは、多様性はソース上の1つの仮説を学習するか、共有された特徴抽出器で複数の仮説を学習することに限定される。
本稿では,異なる特徴抽出器を用いて表現多様性を促進する新しい無教師付きSFDAアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-06T00:20:19Z) - Heterogeneous Multi-Robot Reinforcement Learning [7.22614468437919]
不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
論文 参考訳(メタデータ) (2023-01-17T19:05:17Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Policy Diagnosis via Measuring Role Diversity in Cooperative Multi-agent
RL [107.58821842920393]
我々はエージェントの行動差を定量化し、bfロールの多様性を通して政策パフォーマンスとの関係を構築する
MARLの誤差は, 役割多様性と強い関係を持つ3つの部分に分けられる。
分解された要因は3つの一般的な方向における政策最適化に大きな影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2022-06-01T04:58:52Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Quantifying environment and population diversity in multi-agent
reinforcement learning [7.548322030720646]
一般化は多エージェント強化学習の大きな課題である。
本稿では,マルチエージェント領域における一般化と多様性の関係を定量的に検討する。
共同演奏者の変動が与える影響をよりよく理解するために,実験では,行動の多様性の環境によらない新しい尺度を導入する。
論文 参考訳(メタデータ) (2021-02-16T18:54:39Z) - Ubiquitous Distributed Deep Reinforcement Learning at the Edge:
Analyzing Byzantine Agents in Discrete Action Spaces [0.06554326244334865]
本稿では,ビザンチンや誤作動剤の存在下で発生する多エージェント分散深層強化学習の課題について論じる。
個別行動の誤りが協調学習活動にどのように影響するかを示す。
分散マルチエージェントトレーニングにおけるアクター・クリティカル(A2C)を活かしたAtariテストベッドを用いたシミュレーション環境で実験を行った。
論文 参考訳(メタデータ) (2020-08-18T11:25:39Z) - Effective Diversity in Population Based Reinforcement Learning [38.62641968788987]
人口のすべてのメンバを同時に最適化するアプローチを導入する。
対距離を使用するのではなく、行動多様体内の全集団の体積を測定する。
我々のアルゴリズムは、オンライン学習技術を用いて、トレーニング中に多様性の度合いを適応させる。
論文 参考訳(メタデータ) (2020-02-03T10:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。