論文の概要: LINDA: Multi-Agent Local Information Decomposition for Awareness of
Teammates
- arxiv url: http://arxiv.org/abs/2109.12508v1
- Date: Sun, 26 Sep 2021 06:46:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-29 14:05:21.989350
- Title: LINDA: Multi-Agent Local Information Decomposition for Awareness of
Teammates
- Title(参考訳): linda: マルチエージェントによるローカル情報分解によるチームメイトの認識
- Authors: Jiahan Cao, Lei Yuan, Jianhao Wang, Shaowei Zhang, Chongjie Zhang,
Yang Yu, De-Chuan Zhan
- Abstract要約: 協調型マルチエージェント強化学習(MARL)では、エージェントは部分的な観察のみにアクセスできるため、局所的な情報を効率的に活用することが重要である。
エージェントがローカル情報を分解し,各チームメイトに対して意識を構築することを学習する,チームメイト意識のための新しいフレームワークLINDAを提案する。
- 参考スコア(独自算出の注目度): 33.28389165779892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In cooperative multi-agent reinforcement learning (MARL), where agents only
have access to partial observations, efficiently leveraging local information
is critical. During long-time observations, agents can build \textit{awareness}
for teammates to alleviate the problem of partial observability. However,
previous MARL methods usually neglect this kind of utilization of local
information. To address this problem, we propose a novel framework, multi-agent
\textit{Local INformation Decomposition for Awareness of teammates} (LINDA),
with which agents learn to decompose local information and build awareness for
each teammate. We model the awareness as stochastic random variables and
perform representation learning to ensure the informativeness of awareness
representations by maximizing the mutual information between awareness and the
actual trajectory of the corresponding agent. LINDA is agnostic to specific
algorithms and can be flexibly integrated to different MARL methods. Sufficient
experiments show that the proposed framework learns informative awareness from
local partial observations for better collaboration and significantly improves
the learning performance, especially on challenging tasks.
- Abstract(参考訳): 協調型マルチエージェント強化学習 (marl) では, エージェントが部分的観察のみにアクセスできる場合, 局所情報を効率的に活用することが重要である。
長時間の観察では、エージェントはチームメイトのために‘textit{awareness} を構築し、部分的な可観測性の問題を軽減することができる。
しかし、従来のMARL法は通常、この種のローカル情報の利用を無視する。
この問題に対処するために、エージェントがローカル情報を分解し、各チームメイトに対して認識を構築することを学習する新しいフレームワーク、マルチエージェント{Local Information Decomposition for Awareness of Teammates} (LINDA)を提案する。
認識を確率確率変数としてモデル化し,認識と実際のエージェントの軌跡の相互情報を最大化することにより,認識表現のインフォメーション性を確保するために表現学習を行う。
LINDAは特定のアルゴリズムに依存せず、様々なMARLメソッドに柔軟に統合することができる。
十分な実験により,提案手法は局所的な部分的観察から情報的認識を学習し,協調性を高め,特に課題において学習性能を著しく向上させることを示した。
関連論文リスト
- Mind the Interference: Retaining Pre-trained Knowledge in Parameter Efficient Continual Learning of Vision-Language Models [79.28821338925947]
ドメインクラスのインクリメンタル学習は現実的だが、継続的な学習シナリオである。
これらの多様なタスクに対処するために、事前訓練されたビジョンランゲージモデル(VLM)を導入し、その強力な一般化性を実現する。
事前訓練されたVLMにエンコードされた知識は、新しいタスクに適応する際に妨げられ、固有のゼロショット能力を損なう。
既存の手法では、膨大なオーバーヘッドを必要とする余分なデータセットに知識蒸留でVLMをチューニングすることで、この問題に対処している。
我々は、事前学習した知識を保持できるDIKI(Distributed-Aware Interference-free Knowledge Integration)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-07T12:19:37Z) - Learning Independently from Causality in Multi-Agent Environments [0.0]
MARL(Multi-Agent Reinforcement Learning)は、機械学習分野への関心が高まっている分野である。
遅延エージェントの病理はMARLで有名な問題であり、MARLチームのエージェントが共通の目標に寄与していない場合にイベントを表す。
エージェントは協調戦略を学習し、個々の観察とチームの報酬との間に因果関係があることを示す。
論文 参考訳(メタデータ) (2023-11-05T19:12:08Z) - Self-Supervised Neuron Segmentation with Multi-Agent Reinforcement
Learning [53.00683059396803]
マスク画像モデル(MIM)は,マスク画像から元の情報を復元する簡便さと有効性から広く利用されている。
本稿では、強化学習(RL)を利用して最適な画像マスキング比とマスキング戦略を自動検索する決定に基づくMIMを提案する。
本手法は,ニューロン分節の課題において,代替自己監督法に対して有意な優位性を有する。
論文 参考訳(メタデータ) (2023-10-06T10:40:46Z) - From Global to Local: Multi-scale Out-of-distribution Detection [129.37607313927458]
アウト・オブ・ディストリビューション(OOD)検出は、イン・ディストリビューション(ID)トレーニングプロセス中にラベルが見られない未知のデータを検出することを目的としている。
近年の表現学習の進歩により,距離に基づくOOD検出がもたらされる。
グローバルな視覚情報と局所的な情報の両方を活用する第1のフレームワークであるマルチスケールOOD検出(MODE)を提案する。
論文 参考訳(メタデータ) (2023-08-20T11:56:25Z) - MA2CL:Masked Attentive Contrastive Learning for Multi-Agent
Reinforcement Learning [128.19212716007794]
我々はtextbfMulti-textbfAgent textbfMasked textbfAttentive textbfContrastive textbfLearning (MA2CL) という効果的なフレームワークを提案する。
MA2CLは、潜伏空間におけるマスクされたエージェント観察を再構築することにより、時間的およびエージェントレベルの予測の両方の学習表現を奨励する。
提案手法は,様々なMARLアルゴリズムの性能とサンプル効率を大幅に向上させ,様々な視覚的,状態的シナリオにおいて,他の手法よりも優れる。
論文 参考訳(メタデータ) (2023-06-03T05:32:19Z) - Knowledge-Aware Federated Active Learning with Non-IID Data [75.98707107158175]
本稿では,アノテーション予算に制限のあるグローバルモデルを効率的に学習するための,連合型アクティブラーニングパラダイムを提案する。
フェデレートされたアクティブラーニングが直面する主な課題は、サーバ上のグローバルモデルのアクティブサンプリング目標と、ローカルクライアントのアクティブサンプリング目標とのミスマッチである。
本稿では,KSAS (Knowledge-Aware Federated Active Learning) とKCFU (Knowledge-Compensatory Federated Update) を組み合わせた,知識対応型アクティブ・ラーニング(KAFAL)を提案する。
論文 参考訳(メタデータ) (2022-11-24T13:08:43Z) - Scalable Multi-Agent Reinforcement Learning through Intelligent
Information Aggregation [6.09506921406322]
本稿では,局所的情報を用いてエージェントの経路を分散的に計算するマルチエージェント強化学習(MARL)のための新しいアーキテクチャを提案する。
InforMARLは、アクターと批評家の両方のエージェントの局所的な近傍に関する情報をグラフニューラルネットワークを使用して集約し、標準的なMARLアルゴリズムと併用することができる。
論文 参考訳(メタデータ) (2022-11-03T20:02:45Z) - Locality Matters: A Scalable Value Decomposition Approach for
Cooperative Multi-Agent Reinforcement Learning [52.7873574425376]
協調型マルチエージェント強化学習(MARL)は,エージェント数で指数関数的に大きい状態空間と動作空間により,スケーラビリティの問題に直面する。
本稿では,学習分散実行パラダイムに局所報酬を組み込んだ,新しい価値に基づくマルチエージェントアルゴリズム LOMAQ を提案する。
論文 参考訳(メタデータ) (2021-09-22T10:08:15Z) - Domain-Robust Visual Imitation Learning with Mutual Information
Constraints [0.0]
Disentangling Generative Adversarial Imitation Learning (DisentanGAIL)と呼ばれる新しいアルゴリズムを導入する。
本アルゴリズムは,タスクを実行する専門家の高次元観察から自律エージェントを直接学習することを可能にする。
論文 参考訳(メタデータ) (2021-03-08T21:18:58Z) - Local Stochastic Approximation: A Unified View of Federated Learning and
Distributed Multi-Task Reinforcement Learning Algorithms [1.52292571922932]
エージェントのネットワーク上での局所近似について検討し、エージェントのローカル演算子からなる演算子のルートを見つけることを目的とする。
我々は,各エージェントのデータをマルコフプロセスから生成し,従って依存する場合に,この手法の有限時間性能を特徴付けることに重点を置いている。
論文 参考訳(メタデータ) (2020-06-24T04:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。