論文の概要: Heterogeneous Multi-Robot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.07137v1
- Date: Tue, 17 Jan 2023 19:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:30:00.072891
- Title: Heterogeneous Multi-Robot Reinforcement Learning
- Title(参考訳): 不均一型マルチロボット強化学習
- Authors: Matteo Bettini, Ajay Shankar, Amanda Prorok
- Abstract要約: 不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
- 参考スコア(独自算出の注目度): 7.22614468437919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-robot tasks can benefit from heterogeneity in the robots'
physical and behavioral traits. In spite of this, traditional Multi-Agent
Reinforcement Learning (MARL) frameworks lack the ability to explicitly
accommodate policy heterogeneity, and typically constrain agents to share
neural network parameters. This enforced homogeneity limits application in
cases where the tasks benefit from heterogeneous behaviors. In this paper, we
crystallize the role of heterogeneity in MARL policies. Towards this end, we
introduce Heterogeneous Graph Neural Network Proximal Policy Optimization
(HetGPPO), a paradigm for training heterogeneous MARL policies that leverages a
Graph Neural Network for differentiable inter-agent communication. HetGPPO
allows communicating agents to learn heterogeneous behaviors while enabling
fully decentralized training in partially observable environments. We
complement this with a taxonomical overview that exposes more heterogeneity
classes than previously identified. To motivate the need for our model, we
present a characterization of techniques that homogeneous models can leverage
to emulate heterogeneous behavior, and show how this "apparent heterogeneity"
is brittle in real-world conditions. Through simulations and real-world
experiments, we show that: (i) when homogeneous methods fail due to strong
heterogeneous requirements, HetGPPO succeeds, and, (ii) when homogeneous
methods are able to learn apparently heterogeneous behaviors, HetGPPO achieves
higher resilience to both training and deployment noise.
- Abstract(参考訳): 協調型マルチロボットタスクは、ロボットの身体的および行動的特性の多様性の恩恵を受ける。
それにもかかわらず、従来のマルチエージェント強化学習(marl)フレームワークは、ポリシーの不均一性を明示的に受け入れる能力がなく、通常、エージェントがニューラルネットワークパラメータを共有することを制限している。
この強制された均質性は、タスクが異質な振る舞いから恩恵を受ける場合に応用を制限する。
本稿では,MARL政策における不均一性の役割を結晶化する。
そこで本研究では,グラフニューラルネットワークを用いたエージェント間通信の学習手法であるヘテロジニアス・ニューラル・ネットワーク・近近政策最適化(hetgppo)を提案する。
HetGPPOは、コミュニケーションエージェントが不均一な振る舞いを学習し、部分的に観察可能な環境で完全に分散化されたトレーニングを可能にする。
我々はこれを、以前同定されたより異質なクラスを明らかにする分類学的概要で補完する。
モデルの必要性を動機づけるために、同質モデルが不均一な振る舞いをエミュレートできる手法の特性を示し、この「透明な不均一性」が現実の環境でどのように脆弱であるかを示す。
シミュレーションと実世界の実験を通して、私たちはこう示します。
i) 強い異種要求により同種メソッドが失敗すると、HetGPPOは成功し、
二 均質な手法が明らかに異質な振る舞いを学べる場合、HetGPPOは訓練と展開騒音の両方に対して高い弾力性を達成する。
関連論文リスト
- Histopathology Whole Slide Image Analysis with Heterogeneous Graph
Representation Learning [78.49090351193269]
本稿では,WSI分析のために,異なる種類の核間の相互関係を利用する新しいグラフベースのフレームワークを提案する。
具体的には、WSI を各ノードに "nucleus-type" 属性と各エッジに類似した意味属性を持つ異種グラフとして定式化する。
我々のフレームワークは、様々なタスクに対してかなりのマージンで最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-07-09T14:43:40Z) - Conditionally Invariant Representation Learning for Disentangling
Cellular Heterogeneity [25.488181126364186]
本稿では,不必要な変数や乱れに条件付き不変な表現を学習するために,ドメインの可変性を活用する新しい手法を提案する。
単細胞ゲノム学におけるデータ統合など,生物の課題に対して本手法を適用した。
具体的には、提案手法は、対象のタスクと無関係なデータバイアスや興味の因果的説明から生物学的信号を解き放つのに役立つ。
論文 参考訳(メタデータ) (2023-07-02T12:52:41Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in
Multi-Agent Learning [7.22614468437919]
マルチエージェントシステムにおける行動不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDが行動不均一性の潜伏特性を解析するための重要な診断ツールであることを示す。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Automatic Generation of Individual Fuzzy Cognitive Maps from
Longitudinal Data [0.0]
ファジィ認知マップ(英: Fuzzy Cognitive Maps、FCM)は、個々の相互作用に対して、因子(ノード)がどのように変化するかを表す計算モデルである。
本稿では、遺伝的アルゴリズムを用いて各エージェントに1つのFCMを作成することにより、不均一な振る舞いを持つ仮想集団を自動生成する手段を提供する。
論文 参考訳(メタデータ) (2022-02-14T22:11:58Z) - Efficient Model-Based Multi-Agent Mean-Field Reinforcement Learning [89.31889875864599]
マルチエージェントシステムにおける学習に有効なモデルベース強化学習アルゴリズムを提案する。
我々の理論的な貢献は、MFCのモデルベース強化学習における最初の一般的な後悔の限界である。
コア最適化問題の実用的なパラメトリゼーションを提供する。
論文 参考訳(メタデータ) (2021-07-08T18:01:02Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。