論文の概要: Heterogeneous Multi-Robot Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2301.07137v1
- Date: Tue, 17 Jan 2023 19:05:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 17:30:00.072891
- Title: Heterogeneous Multi-Robot Reinforcement Learning
- Title(参考訳): 不均一型マルチロボット強化学習
- Authors: Matteo Bettini, Ajay Shankar, Amanda Prorok
- Abstract要約: 不均一グラフニューラルネットワークプロキシポリシー最適化は、異種MARLポリシーをトレーニングするためのパラダイムである。
均質モデルがヘテロジニアスな振る舞いをエミュレートするために利用できる手法のキャラクタリゼーションを提案する。
- 参考スコア(独自算出の注目度): 7.22614468437919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cooperative multi-robot tasks can benefit from heterogeneity in the robots'
physical and behavioral traits. In spite of this, traditional Multi-Agent
Reinforcement Learning (MARL) frameworks lack the ability to explicitly
accommodate policy heterogeneity, and typically constrain agents to share
neural network parameters. This enforced homogeneity limits application in
cases where the tasks benefit from heterogeneous behaviors. In this paper, we
crystallize the role of heterogeneity in MARL policies. Towards this end, we
introduce Heterogeneous Graph Neural Network Proximal Policy Optimization
(HetGPPO), a paradigm for training heterogeneous MARL policies that leverages a
Graph Neural Network for differentiable inter-agent communication. HetGPPO
allows communicating agents to learn heterogeneous behaviors while enabling
fully decentralized training in partially observable environments. We
complement this with a taxonomical overview that exposes more heterogeneity
classes than previously identified. To motivate the need for our model, we
present a characterization of techniques that homogeneous models can leverage
to emulate heterogeneous behavior, and show how this "apparent heterogeneity"
is brittle in real-world conditions. Through simulations and real-world
experiments, we show that: (i) when homogeneous methods fail due to strong
heterogeneous requirements, HetGPPO succeeds, and, (ii) when homogeneous
methods are able to learn apparently heterogeneous behaviors, HetGPPO achieves
higher resilience to both training and deployment noise.
- Abstract(参考訳): 協調型マルチロボットタスクは、ロボットの身体的および行動的特性の多様性の恩恵を受ける。
それにもかかわらず、従来のマルチエージェント強化学習(marl)フレームワークは、ポリシーの不均一性を明示的に受け入れる能力がなく、通常、エージェントがニューラルネットワークパラメータを共有することを制限している。
この強制された均質性は、タスクが異質な振る舞いから恩恵を受ける場合に応用を制限する。
本稿では,MARL政策における不均一性の役割を結晶化する。
そこで本研究では,グラフニューラルネットワークを用いたエージェント間通信の学習手法であるヘテロジニアス・ニューラル・ネットワーク・近近政策最適化(hetgppo)を提案する。
HetGPPOは、コミュニケーションエージェントが不均一な振る舞いを学習し、部分的に観察可能な環境で完全に分散化されたトレーニングを可能にする。
我々はこれを、以前同定されたより異質なクラスを明らかにする分類学的概要で補完する。
モデルの必要性を動機づけるために、同質モデルが不均一な振る舞いをエミュレートできる手法の特性を示し、この「透明な不均一性」が現実の環境でどのように脆弱であるかを示す。
シミュレーションと実世界の実験を通して、私たちはこう示します。
i) 強い異種要求により同種メソッドが失敗すると、HetGPPOは成功し、
二 均質な手法が明らかに異質な振る舞いを学べる場合、HetGPPOは訓練と展開騒音の両方に対して高い弾力性を達成する。
関連論文リスト
- Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。
CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。
本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文 参考訳(メタデータ) (2024-11-01T01:51:31Z) - Interpreting artificial neural networks to detect genome-wide association signals for complex traits [0.0]
複雑な疾患の遺伝的アーキテクチャを調べることは、遺伝的および環境要因の高度にポリジェニックでインタラクティブな景観のために困難である。
我々は、シミュレーションと実際のジェノタイプ/フェノタイプデータセットの両方を用いて、複雑な特性を予測するために、人工ニューラルネットワークを訓練した。
論文 参考訳(メタデータ) (2024-07-26T15:20:42Z) - Semantically Rich Local Dataset Generation for Explainable AI in Genomics [0.716879432974126]
ゲノム配列に基づいて訓練されたブラックボックス深層学習モデルは、異なる遺伝子制御機構の結果を予測するのに優れている。
本稿では、遺伝的プログラミングを用いて、その意味的多様性に寄与する配列の摂動を進化させることによりデータセットを生成することを提案する。
論文 参考訳(メタデータ) (2024-07-03T10:31:30Z) - Task Groupings Regularization: Data-Free Meta-Learning with Heterogeneous Pre-trained Models [83.02797560769285]
Data-Free Meta-Learning (DFML)は、トレーニング済みモデルのコレクションから、元のデータにアクセスせずに知識を抽出することを目的としている。
現在の手法は、事前訓練されたモデル間の不均一性を見落とし、タスクの衝突による性能低下につながることが多い。
課題群規則化(Task Groupings Regularization)は、矛盾するタスクをグループ化し整合させることにより、モデルの不均一性から恩恵を受ける新しいアプローチである。
論文 参考訳(メタデータ) (2024-05-26T13:11:55Z) - Heterogeneous Multi-Agent Reinforcement Learning for Zero-Shot Scalable Collaboration [5.326588461041464]
マルチエージェント強化学習(MARL)は、自動運転車ネットワークのような分野を変革している。
異なるロールに対するMARL戦略は、スケールに応じて柔軟に更新することができる。
我々は、スケーラブルで不均一なポリシー最適化(SHPPO)という新しいMARLフレームワークを提案する。
SHPPOは、Starcraft Multi-Agent Challenge (SMAC)やGoogle Research Football (GRF)のような古典的なMARL環境において優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-04-05T03:02:57Z) - System Neural Diversity: Measuring Behavioral Heterogeneity in Multi-Agent Learning [8.280943341629161]
マルチエージェントシステムにおける振る舞いの不均一性の尺度であるシステムニューラルダイバーシティ(SND)を紹介する。
SNDはエージェントが取得した潜時レジリエンスのスキルを計測できるが、タスクパフォーマンス(リワード)などの他のプロキシは失敗する。
我々は、このパラダイムが探索フェーズのブートストラップにどのように使用できるかを示し、最適なポリシーを高速に見つける。
論文 参考訳(メタデータ) (2023-05-03T13:58:13Z) - Differentiable Agent-based Epidemiology [71.81552021144589]
GradABM(GradABM)は、エージェントベースのモデリングのためのスケーラブルで微分可能な設計で、勾配に基づく学習と自動微分が可能である。
GradABMは、コモディティハードウェア上で数秒で数百万の人口をシミュレートし、ディープニューラルネットワークと統合し、異種データソースを取り込みます。
論文 参考訳(メタデータ) (2022-07-20T07:32:02Z) - Efficient Model-based Multi-agent Reinforcement Learning via Optimistic
Equilibrium Computation [93.52573037053449]
H-MARL (Hallucinated Multi-Agent Reinforcement Learning) は,環境と数回交流した後の平衡政策を学習する。
自律運転シミュレーションベンチマークにおいて,本手法を実験的に実証した。
論文 参考訳(メタデータ) (2022-03-14T17:24:03Z) - Automatic Generation of Individual Fuzzy Cognitive Maps from
Longitudinal Data [0.0]
ファジィ認知マップ(英: Fuzzy Cognitive Maps、FCM)は、個々の相互作用に対して、因子(ノード)がどのように変化するかを表す計算モデルである。
本稿では、遺伝的アルゴリズムを用いて各エージェントに1つのFCMを作成することにより、不均一な振る舞いを持つ仮想集団を自動生成する手段を提供する。
論文 参考訳(メタデータ) (2022-02-14T22:11:58Z) - Cooperative Policy Learning with Pre-trained Heterogeneous Observation
Representations [51.8796674904734]
事前訓練された異種観察表現を用いた新たな協調学習フレームワークを提案する。
エンコーダ-デコーダに基づくグラフアテンションを用いて、複雑な相互作用と異種表現を学習する。
論文 参考訳(メタデータ) (2020-12-24T04:52:29Z) - A Multi-Semantic Metapath Model for Large Scale Heterogeneous Network
Representation Learning [52.83948119677194]
大規模不均一表現学習のためのマルチセマンティックメタパス(MSM)モデルを提案する。
具体的には,マルチセマンティックなメタパスに基づくランダムウォークを生成し,不均衡な分布を扱うヘテロジニアスな近傍を構築する。
提案するフレームワークに対して,AmazonとAlibabaの2つの挑戦的なデータセットに対して,体系的な評価を行う。
論文 参考訳(メタデータ) (2020-07-19T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。