論文の概要: Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2207.03902v1
- Date: Fri, 8 Jul 2022 13:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-11 13:31:22.280197
- Title: Interaction Pattern Disentangling for Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習のためのインタラクションパターン分割
- Authors: Shunyu Liu, Jie Song, Yihe Zhou, Na Yu, Kaixuan Chen, Zunlei Feng,
Mingli Song
- Abstract要約: 本稿では、値関数とエンティティの相互作用をアンタングルするために、新しいInteractioniOn Pattern DisenTangling(OPT)手法を提案する。
OPTは無関係な実体間のノイズの相互作用をフィルタリングしやすくし、一般化可能性や解釈可能性を大幅に向上させる。
- 参考スコア(独自算出の注目度): 34.08532596750681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep cooperative multi-agent reinforcement learning has demonstrated its
remarkable success over a wide spectrum of complex control tasks. However,
recent advances in multi-agent learning mainly focus on value decomposition
while leaving entity interactions still intertwined, which easily leads to
over-fitting on noisy interactions between entities. In this work, we introduce
a novel interactiOn Pattern disenTangling (OPT) method, to disentangle not only
the joint value function into agent-wise value functions for decentralized
execution, but also the entity interactions into interaction prototypes, each
of which represents an underlying interaction pattern within a sub-group of the
entities. OPT facilitates filtering the noisy interactions between irrelevant
entities and thus significantly improves generalizability as well as
interpretability. Specifically, OPT introduces a sparse disagreement mechanism
to encourage sparsity and diversity among discovered interaction prototypes.
Then the model selectively restructures these prototypes into a compact
interaction pattern by an aggregator with learnable weights. To alleviate the
training instability issue caused by partial observability, we propose to
maximize the mutual information between the aggregation weights and the history
behaviors of each agent. Experiments on both single-task and multi-task
benchmarks demonstrate that the proposed method yields results superior to the
state-of-the-art counterparts. Our code will be made publicly available.
- Abstract(参考訳): ディープ・コラボレーティブなマルチエージェント強化学習は、様々な複雑な制御タスクにおいて顕著な成功を収めた。
しかし、近年のマルチエージェント学習の進歩は、主に価値の分解に焦点を合わせ、エンティティ間の相互作用はいまだに絡み合っている。
本稿では,分散実行のためのエージェント・ワイズ・バリュー・関数に結合値関数だけでなく,エンティティのサブグループ内の基礎となるインタラクションパターンを表す相互作用プロトタイプへのエンティティインタラクションを分離する,新しいインタラクション・パターン・ディスタングリング(opt)手法を提案する。
OPTは無関係な実体間のノイズ相互作用のフィルタリングを容易にし、一般化可能性と解釈可能性を大幅に改善する。
具体的には、OPTは、発見された相互作用プロトタイプ間のスパースと多様性を促進するためのスパース不一致機構を導入する。
そして、モデルはこれらのプロトタイプを学習可能な重み付き集約器によってコンパクトな相互作用パターンに選択的に再構成する。
部分観測可能性によるトレーニング不安定性の問題を軽減するため,各エージェントの集約重みと履歴行動の相互情報の最大化を提案する。
単一タスクとマルチタスクのベンチマーク実験により,提案手法は最先端のベンチマークよりも優れた結果が得られることを示した。
私たちのコードは公開されます。
関連論文リスト
- MMOE: Mixture of Multimodal Interaction Experts [115.20477067767399]
MMOEはマルチモーダルインタラクションの専門家の混在を指す。
本手法は, ラベルのないマルチモーダルデータセットから, 対話タイプによって自動的にデータポイントを分類し, それぞれのインタラクションに特化モデルを用いる。
実験結果から,本手法は,これらの課題のあるインタラクションのパフォーマンスを10%以上向上させ,皮肉な予測などのタスクに対して全体の2%向上をもたらす。
論文 参考訳(メタデータ) (2023-11-16T05:31:21Z) - Multi-Grained Multimodal Interaction Network for Entity Linking [65.30260033700338]
マルチモーダルエンティティリンクタスクは、マルチモーダル知識グラフへの曖昧な言及を解決することを目的としている。
MELタスクを解決するための新しいMulti-Grained Multimodal InteraCtion Network $textbf(MIMIC)$ frameworkを提案する。
論文 参考訳(メタデータ) (2023-07-19T02:11:19Z) - Interactive Spatiotemporal Token Attention Network for Skeleton-based
General Interactive Action Recognition [8.513434732050749]
本稿では,空間的,時間的,対話的な関係を同時にモデル化する対話型時空間意識ネットワーク(ISTA-Net)を提案する。
我々のネットワークには対話的時空間トークン(IST)を分割するトークン機構があり、これは複数の多様なエンティティの動作を表現する統一的な方法である。
ISTの3次元に沿って共同学習するために、3次元畳み込みと統合されたマルチヘッド自己認識ブロックは、トークン間の相関を捉えるように設計されている。
論文 参考訳(メタデータ) (2023-07-14T16:51:25Z) - Rethinking Trajectory Prediction via "Team Game" [118.59480535826094]
本稿では,対話型グループコンセンサスの概念を明示的に導入した,マルチエージェント軌道予測の新しい定式化について述べる。
チームスポーツと歩行者の2つのマルチエージェント設定において,提案手法は既存手法と比較して常に優れた性能を達成している。
論文 参考訳(メタデータ) (2022-10-17T07:16:44Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - Tesseract: Tensorised Actors for Multi-Agent Reinforcement Learning [92.05556163518999]
MARLは、コミュニケーションと可観測性に様々な制約を課すことによって、問題を悪化させる。
値ベースの手法では、最適な値関数を正確に表現することが課題となる。
政策勾配法では、批判者の訓練を困難にし、遅れる批判者の問題を悪化させる。
学習理論の観点からは、関連するアクション値関数を正確に表現することで、両方の問題に対処できることが示される。
論文 参考訳(メタデータ) (2021-05-31T23:08:05Z) - Modeling the Interaction between Agents in Cooperative Multi-Agent
Reinforcement Learning [2.9360071145551068]
対話型アクター・クリティック(IAC)と呼ばれる新しい協調型MARLアルゴリズムを提案する。
IACは政策と価値関数の観点からエージェントの相互作用をモデル化する。
連続制御タスクに値分解手法を拡張し、古典的な制御やマルチエージェント粒子環境を含むベンチマークタスク上でIACを評価する。
論文 参考訳(メタデータ) (2021-02-10T01:58:28Z) - Asynchronous Interaction Aggregation for Action Detection [43.34864954534389]
本稿では,異なるインタラクションを活用して動作検出を促進する非同期インタラクション集約ネットワーク(AIA)を提案する。
ひとつはインタラクション集約構造(IA)で、複数のタイプのインタラクションをモデル化し統合するための一様パラダイムを採用し、もうひとつはパフォーマンス向上を実現するための非同期メモリ更新アルゴリズム(AMU)です。
論文 参考訳(メタデータ) (2020-04-16T07:03:20Z) - Cascaded Human-Object Interaction Recognition [175.60439054047043]
マルチステージで粗大なHOI理解のためのカスケードアーキテクチャを提案する。
各段階で、インスタンスローカライゼーションネットワークは、HOI提案を段階的に洗練し、インタラクション認識ネットワークにフィードする。
慎重に設計された人間中心の関係機能により、これらの2つのモジュールは効果的な相互作用理解に向けて協調的に機能する。
論文 参考訳(メタデータ) (2020-03-09T17:05:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。