論文の概要: Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.03902v3
- Date: Thu, 20 Apr 2023 13:23:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-21 17:27:17.569541
- Title: Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのインタラクションパターン分割
- Authors: Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen, Zunlei Feng,
Mingli Song
- Abstract要約: 本稿では,対話型パターンディスエンタング法(OPT)を導入し,結合値関数をエージェント単位の値関数に切り離して分散実行する手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
単一タスクとマルチタスクのベンチマーク実験により,提案手法は最先端のベンチマークよりも優れた結果が得られることを示した。
- 参考スコア(独自算出の注目度): 34.08532596750681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep cooperative multi-agent reinforcement learning has demonstrated its
remarkable success over a wide spectrum of complex control tasks. However,
recent advances in multi-agent learning mainly focus on value decomposition
while leaving entity interactions still intertwined, which easily leads to
over-fitting on noisy interactions between entities. In this work, we introduce
a novel interactiOn Pattern disenTangling (OPT) method, to disentangle not only
the joint value function into agent-wise value functions for decentralized
execution, but also the entity interactions into interaction prototypes, each
of which represents an underlying interaction pattern within a subgroup of the
entities. OPT facilitates filtering the noisy interactions between irrelevant
entities and thus significantly improves generalizability as well as
interpretability. Specifically, OPT introduces a sparse disagreement mechanism
to encourage sparsity and diversity among discovered interaction prototypes.
Then the model selectively restructures these prototypes into a compact
interaction pattern by an aggregator with learnable weights. To alleviate the
training instability issue caused by partial observability, we propose to
maximize the mutual information between the aggregation weights and the history
behaviors of each agent. Experiments on both single-task and multi-task
benchmarks demonstrate that the proposed method yields results superior to the
state-of-the-art counterparts. Our code is available at
https://github.com/liushunyu/OPT.
- Abstract(参考訳): ディープ・コラボレーティブなマルチエージェント強化学習は、様々な複雑な制御タスクにおいて顕著な成功を収めた。
しかし、近年のマルチエージェント学習の進歩は、主に価値の分解に焦点を合わせ、エンティティ間の相互作用はいまだに絡み合っている。
本稿では,分散実行のためのエージェント・ワイズ・バリュー・関数に結合値関数だけでなく,エンティティのサブグループ内の基礎となるインタラクションパターンを表す相互作用プロトタイプへのエンティティインタラクションを分離する,新しいインタラクション・パターン・ディスタングリング(opt)手法を提案する。
OPTは無関係な実体間のノイズ相互作用のフィルタリングを容易にし、一般化可能性と解釈可能性を大幅に改善する。
具体的には、OPTは、発見された相互作用プロトタイプ間のスパースと多様性を促進するためのスパース不一致機構を導入する。
そして、モデルはこれらのプロトタイプを学習可能な重み付き集約器によってコンパクトな相互作用パターンに選択的に再構成する。
部分観測可能性によるトレーニング不安定性の問題を軽減するため,各エージェントの集約重みと履歴行動の相互情報の最大化を提案する。
単一タスクとマルチタスクのベンチマーク実験により,提案手法は最先端のベンチマークよりも優れた結果が得られることを示した。
私たちのコードはhttps://github.com/liushunyu/optで利用可能です。
関連論文リスト
- Relation Learning and Aggregate-attention for Multi-person Motion Prediction [13.052342503276936]
多対人動作予測は、骨格構造や人間の軌道だけでなく、他者との相互作用も考慮している。
それまでの手法では、個人内の結合関係(イントラリレーション)とグループ間の相互作用(インターリレーション)は異なる種類の表現であるとしばしば見落としていた。
我々はこれらの関係を明示的にモデル化する多人数動作予測のための新しい協調フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-06T07:48:30Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Information Interaction Profile of Choice Adoption [2.9972063833424216]
相互作用するエンティティを分離する時間的距離に応じて、エンティティの相互作用ネットワークとその進化を推定する効率的な方法を紹介します。
相互作用プロファイルは、相互作用プロセスのメカニズムを特徴付けることができます。
ユーザに対する露出の組み合わせの効果は、各露出の独立した効果の総和以上のものであることを示す。
論文 参考訳(メタデータ) (2021-04-28T10:42:25Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z) - Multi-Agent Interactions Modeling with Correlated Policies [53.38338964628494]
本稿では,マルチエージェントインタラクションモデリング問題をマルチエージェント模倣学習フレームワークに実装する。
相関ポリシー(CoDAIL)を用いた分散型適応模倣学習アルゴリズムの開発
様々な実験により、CoDAILはデモレーターに近い複雑な相互作用をより良く再生できることが示されている。
論文 参考訳(メタデータ) (2020-01-04T17:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。