論文の概要: Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2003.13085v1
- Date: Sun, 29 Mar 2020 17:42:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 13:24:26.610318
- Title: Parallel Knowledge Transfer in Multi-Agent Reinforcement Learning
- Title(参考訳): マルチエージェント強化学習における並列知識伝達
- Authors: Yongyuan Liang, Bangwei Li
- Abstract要約: 本稿では,MARL(Parallel Attentional Transfer)における新しい知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
エージェントが環境に不慣れな場合、学生モードにおける共有注意機構は、エージェントの行動を決定するために、他のエージェントからの学習知識を効果的に選択する。
- 参考スコア(独自算出の注目度): 0.2538209532048867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-agent reinforcement learning is a standard framework for modeling
multi-agent interactions applied in real-world scenarios. Inspired by
experience sharing in human groups, learning knowledge parallel reusing between
agents can potentially promote team learning performance, especially in
multi-task environments. When all agents interact with the environment and
learn simultaneously, how each independent agent selectively learns from other
agents' behavior knowledge is a problem that we need to solve. This paper
proposes a novel knowledge transfer framework in MARL, PAT (Parallel
Attentional Transfer). We design two acting modes in PAT, student mode and
self-learning mode. Each agent in our approach trains a decentralized student
actor-critic to determine its acting mode at each time step. When agents are
unfamiliar with the environment, the shared attention mechanism in student mode
effectively selects learning knowledge from other agents to decide agents'
actions. PAT outperforms state-of-the-art empirical evaluation results against
the prior advising approaches. Our approach not only significantly improves
team learning rate and global performance, but also is flexible and
transferable to be applied in various multi-agent systems.
- Abstract(参考訳): マルチエージェント強化学習は,実世界のシナリオに適用されたマルチエージェントインタラクションをモデル化するための標準フレームワークである。
ヒューマングループでの体験共有にインスパイアされたエージェント間の学習知識の並列再利用は、特にマルチタスク環境でのチーム学習のパフォーマンスを促進する可能性がある。
すべてのエージェントが環境と対話して同時に学習する場合、各エージェントが他のエージェントの行動知識から選択的に学習する方法は、私たちが解決しなければならない問題である。
本稿では,MARL(Parallel Attentional Transfer)における新たな知識伝達フレームワークを提案する。
PAT,学生モード,自己学習モードの2つの動作モードを設計する。
このアプローチの各エージェントは、分散化された学生アクター批判を訓練し、各ステップでその演技モードを決定する。
エージェントが環境に不慣れな場合、学生モードの共有注意機構は、エージェントの行動を決定するために他のエージェントから学習知識を効果的に選択する。
PATは、先進的なアプローチに対して最先端の実証的評価結果を上回っている。
我々のアプローチはチーム学習率とグローバルパフォーマンスを著しく向上させるだけでなく、様々なマルチエージェントシステムに適用できる柔軟性と転送性も向上する。
関連論文リスト
- Active Legibility in Multiagent Reinforcement Learning [3.7828554251478734]
正当性指向のフレームワークは、エージェントが他人の振る舞いを最適化するのを助けるために、妥当なアクションを実行することを可能にする。
実験の結果、新しいフレームワークは、複数のマルチエージェント強化学習アルゴリズムと比較して、より効率的で、トレーニング時間が少ないことが示されている。
論文 参考訳(メタデータ) (2024-10-28T12:15:49Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - Contrastive learning-based agent modeling for deep reinforcement
learning [31.293496061727932]
エージェントモデリングは、マルチエージェントシステムにおけるインテリジェントマシンエージェントの適応ポリシーを設計する際に必須である。
我々は,エゴエージェントの訓練・実行時の局所的な観察のみに依存する,コントラスト学習に基づくエージェントモデリング(CLAM)手法を考案した。
CLAMは、各エピソードの冒頭から、リアルタイムに一貫した高品質なポリシー表現を生成することができる。
論文 参考訳(メタデータ) (2023-12-30T03:44:12Z) - DCIR: Dynamic Consistency Intrinsic Reward for Multi-Agent Reinforcement
Learning [84.22561239481901]
本稿では,エージェントの行動が他のエージェントの行動と一致しているかどうかを学習するための新しいアプローチを提案する。
マルチエージェント粒子, Google Research Football および StarCraft II Micromanagement を含む複数の環境における DCIR の評価を行った。
論文 参考訳(メタデータ) (2023-12-10T06:03:57Z) - Fact-based Agent modeling for Multi-Agent Reinforcement Learning [6.431977627644292]
Fact-based Agent Modeling (FAM) 法は,Fact-based belief inference (FBI) ネットワークがローカル情報のみに基づいて,部分的に観測可能な環境下で他のエージェントをモデル化する手法である。
種々のマルチエージェント粒子環境(MPE)上でFAMを評価し,その結果を最先端のMARLアルゴリズムと比較した。
論文 参考訳(メタデータ) (2023-10-18T19:43:38Z) - ProAgent: Building Proactive Cooperative Agents with Large Language
Models [89.53040828210945]
ProAgentは、大規模な言語モデルを利用してプロアクティブエージェントを生成する新しいフレームワークである。
ProAgentは現状を分析し、チームメイトの意図を観察から推測することができる。
ProAgentは高度なモジュール化と解釈可能性を示し、様々な調整シナリオに容易に統合できる。
論文 参考訳(メタデータ) (2023-08-22T10:36:56Z) - RPM: Generalizable Behaviors for Multi-Agent Reinforcement Learning [90.43925357575543]
本稿では,MARLポリシーを総合性良く訓練するための多様なマルチエージェントトラジェクトリを収集するために,ランク付けされたポリシーメモリ(RPM)を提案する。
RPMにより、マルチエージェントの一般化評価シナリオと完全なタスクにおいて、MARLエージェントが未確認エージェントと対話することが可能になり、平均402%のパフォーマンスが大幅に向上する。
論文 参考訳(メタデータ) (2022-10-18T07:32:43Z) - Multi-Agent Imitation Learning with Copulas [102.27052968901894]
マルチエージェント模倣学習は、観察と行動のマッピングを学習することで、デモからタスクを実行するために複数のエージェントを訓練することを目的としている。
本稿では,確率変数間の依存を捉える強力な統計ツールである copula を用いて,マルチエージェントシステムにおける相関関係と協調関係を明示的にモデル化する。
提案モデルでは,各エージェントの局所的行動パターンと,エージェント間の依存構造のみをフルにキャプチャするコプラ関数を別々に学習することができる。
論文 参考訳(メタデータ) (2021-07-10T03:49:41Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - A Policy Gradient Algorithm for Learning to Learn in Multiagent
Reinforcement Learning [47.154539984501895]
本稿では,マルチエージェント学習環境に固有の非定常的ポリシーダイナミクスを考慮に入れたメタマルチエージェントポリシー勾配定理を提案する。
これは、エージェント自身の非定常ポリシーダイナミクスと、環境内の他のエージェントの非定常ポリシーダイナミクスの両方を考慮するために、勾配更新をモデル化することによって達成される。
論文 参考訳(メタデータ) (2020-10-31T22:50:21Z) - Learning to Incentivize Other Learning Agents [73.03133692589532]
我々は、学習インセンティブ関数を用いて、RLエージェントに他のエージェントに直接報酬を与える能力を持たせる方法を示す。
このようなエージェントは、一般的なマルコフゲームにおいて、標準のRLと対戦型エージェントを著しく上回っている。
私たちの仕事は、マルチエージェントの未来において共通の善を確実にする道のりに沿って、より多くの機会と課題を指しています。
論文 参考訳(メタデータ) (2020-06-10T20:12:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。