論文の概要: S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent
Reinforcement Learning?
- arxiv url: http://arxiv.org/abs/2206.11054v1
- Date: Mon, 20 Jun 2022 07:33:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-25 13:45:57.365833
- Title: S2RL: Do We Really Need to Perceive All States in Deep Multi-Agent
Reinforcement Learning?
- Title(参考訳): s2rl: 深いマルチエージェント強化学習では、すべての状態を認識する必要がありますか?
- Authors: Shuang Luo, Yinchuan Li, Jiahui Li, Kun Kuang, Furui Liu, Yunfeng
Shao, Chao Wu
- Abstract要約: 協調型マルチエージェント強化学習(MARL)は多くの実践的応用で広く利用されている。
局所観測における無関係情報を捨てるために,スパースアテンション機構を利用したスパース状態ベースMARLフレームワークを提案する。
- 参考スコア(独自算出の注目度): 26.265100805551764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Collaborative multi-agent reinforcement learning (MARL) has been widely used
in many practical applications, where each agent makes a decision based on its
own observation. Most mainstream methods treat each local observation as an
entirety when modeling the decentralized local utility functions. However, they
ignore the fact that local observation information can be further divided into
several entities, and only part of the entities is helpful to model inference.
Moreover, the importance of different entities may change over time. To improve
the performance of decentralized policies, the attention mechanism is used to
capture features of local information. Nevertheless, existing attention models
rely on dense fully connected graphs and cannot better perceive important
states. To this end, we propose a sparse state based MARL (S2RL) framework,
which utilizes a sparse attention mechanism to discard irrelevant information
in local observations. The local utility functions are estimated through the
self-attention and sparse attention mechanisms separately, then are combined
into a standard joint value function and auxiliary joint value function in the
central critic. We design the S2RL framework as a plug-and-play module, making
it general enough to be applied to various methods. Extensive experiments on
StarCraft II show that S2RL can significantly improve the performance of many
state-of-the-art methods.
- Abstract(参考訳): 協調型マルチエージェント強化学習(MARL)は多くの実践的応用で広く使われており、各エージェントはそれぞれの観察に基づいて決定を行う。
ほとんどの主流の方法は、分散化されたローカルユーティリティ関数をモデル化する際に、各ローカル観測を全体として扱う。
しかし、局所的な観測情報がさらに複数のエンティティに分割されるという事実を無視し、そのエンティティの一部だけがモデル推論に役立ちます。
さらに、異なるエンティティの重要性は時間とともに変化する可能性がある。
分散ポリシーの性能を向上させるために、局所的な情報の特徴を捉えるために注意機構が用いられる。
それでも、既存の注意モデルは密接な完全連結グラフに依存しており、重要な状態をよりよく認識することはできない。
そこで本研究では,局所観測における無関係情報を捨てるためにスパースアテンション機構を利用したスパース状態に基づくmarl(s2rl)フレームワークを提案する。
局所効用関数は, 自己注意機構と疎注意機構を別々に用いて推定し, 中心批評家の標準継手値関数と補助継手値関数とに結合する。
私たちはs2rlフレームワークをプラグアンドプレイモジュールとして設計し、様々な方法に適用できるほど汎用的です。
StarCraft IIの大規模な実験により、S2RLは多くの最先端の手法の性能を大幅に改善できることが示された。
関連論文リスト
- Local-Global Attention: An Adaptive Mechanism for Multi-Scale Feature Integration [0.9790236766474198]
Local-Global Attentionは、ローカルとグローバルの両方のコンテキスト機能を統合するように設計されている。
我々は、広く使われているオブジェクト検出および分類データセットのローカル・グローバル・アテンション機構を徹底的に評価した。
論文 参考訳(メタデータ) (2024-11-14T17:22:16Z) - Beyond Local Views: Global State Inference with Diffusion Models for Cooperative Multi-Agent Reinforcement Learning [36.25611963252774]
拡散モデルによる状態推論(SIDIFF)は、画像の露光にインスパイアされている。
SIDIFFは、ローカルな観測のみに基づいて、元のグローバルステートを再構築する。
現在のマルチエージェント強化学習アルゴリズムに無理に組み込むことができる。
論文 参考訳(メタデータ) (2024-08-18T14:49:53Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - Global Meets Local: Effective Multi-Label Image Classification via
Category-Aware Weak Supervision [37.761378069277676]
本稿では,効果的雑音・確率抑圧を実現するための統一的な枠組みを構築した。
我々はグローバルな特徴とローカルな特徴の相補的な情報を探るため、粒度横断型アテンションモジュールを開発した。
我々のフレームワークは最先端の手法よりも優れた性能を実現している。
論文 参考訳(メタデータ) (2022-11-23T05:39:17Z) - Centralized Feature Pyramid for Object Detection [53.501796194901964]
視覚的特徴ピラミッドは、広範囲のアプリケーションにおいて、有効性と効率の両方において、その優位性を示している。
本稿では,オブジェクト検出のためのOLO特徴ピラミッドを提案する。
論文 参考訳(メタデータ) (2022-10-05T08:32:54Z) - Federated and Generalized Person Re-identification through Domain and
Feature Hallucinating [88.77196261300699]
人物再識別(re-ID)におけるフェデレーションドメイン一般化(FedDG)の問題について検討する。
一般化された局所的・グローバルなモデルを学ぶための多様な特徴を創出する手法として,DFH (Domain and Feature Hallucinating) を提案する。
提案手法は4つの大規模re-IDベンチマークにおいてFedDGの最先端性能を実現する。
論文 参考訳(メタデータ) (2022-03-05T09:15:13Z) - Feature-Attending Recurrent Modules for Generalization in Reinforcement
Learning [27.736730414205137]
FARM(Feature-Recurrent Modules)は、空間的および時間的規則性に対して、単純で広く適用可能な帰納的バイアスに依存する状態表現を学習するためのアーキテクチャである。
FARMは、複数のモジュールに分散したステート表現を学び、それぞれが表現力のある機能アテンションメカニズムでフィーチャーをキャプチャする。
これにより、RLエージェントがオブジェクト中心のタスクをまたいで一般化できることが示される。
論文 参考訳(メタデータ) (2021-12-15T12:48:12Z) - Decentralised Person Re-Identification with Selective Knowledge
Aggregation [56.40855978874077]
既存の人物再識別(Re-ID)手法は、主に、モデル学習のためのコレクションにすべてのトレーニングデータを共有する集中型学習パラダイムに従っている。
グローバルに一般化されたモデル(サーバ)を構築するための分散(フェデレーション)Re-ID学習を導入した最近の2つの作品がある。
しかし、これらの手法は、個々のクライアントドメインのRe-IDタスクのパフォーマンスを最大化するために一般化されたモデルを適用する方法に乏しい。
我々は、モデルパーソナライゼーションと一般化のトレードオフを最適化するために、分散化されたRe-IDに対して、新しい選択的知識集約アプローチを提案する。
論文 参考訳(メタデータ) (2021-10-21T18:09:53Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Cross-modal Consensus Network for Weakly Supervised Temporal Action
Localization [74.34699679568818]
時間的行動局所化 (WS-TAL) は、ビデオレベルの分類的監督によって、ビデオ内のアクションインスタンスをローカライズすることを目的とした課題である。
この問題に対処するためのクロスモーダルコンセンサスネットワーク(CO2-Net)を提案する。
論文 参考訳(メタデータ) (2021-07-27T04:21:01Z) - Region-based Non-local Operation for Video Classification [11.746833714322154]
本稿では,地域別非局所的(RNL)操作を自己注意機構のファミリーとして提案する。
チャネルアテンションモジュールと提案したRNLを組み合わせることで,市販のCNNに組み込んだアテンションチェーンを設計し,エンドツーエンドのトレーニングを行う。
提案手法の実験結果は,他の注意機構よりも優れており,Something V1データセット上での最先端性能を実現している。
論文 参考訳(メタデータ) (2020-07-17T14:57:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。