論文の概要: KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2103.14891v1
- Date: Sat, 27 Mar 2021 12:38:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-03 12:11:56.451389
- Title: KnowRU: Knowledge Reusing via Knowledge Distillation in Multi-agent
Reinforcement Learning
- Title(参考訳): knowru: 多エージェント強化学習における知識蒸留による知識活用
- Authors: Zijian Gao, Kele Xu, Bo Ding, Huaimin Wang, Yiying Li, Hongda Jia
- Abstract要約: 深層強化学習(RL)アルゴリズムはマルチエージェント領域において劇的に進歩している。
この問題を解決するには、歴史的経験の効率的な活用が不可欠です。
知識再利用のための「KnowRU」という手法を提案する。
- 参考スコア(独自算出の注目度): 16.167201058368303
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, deep Reinforcement Learning (RL) algorithms have achieved
dramatically progress in the multi-agent area. However, training the
increasingly complex tasks would be time-consuming and resources-exhausting. To
alleviate this problem, efficient leveraging the historical experience is
essential, which is under-explored in previous studies as most of the exiting
methods may fail to achieve this goal in a continuously variational system due
to their complicated design and environmental dynamics. In this paper, we
propose a method, named "KnowRU" for knowledge reusing which can be easily
deployed in the majority of the multi-agent reinforcement learning algorithms
without complicated hand-coded design. We employ the knowledge distillation
paradigm to transfer the knowledge among agents with the goal to accelerate the
training phase for new tasks, while improving the asymptotic performance of
agents. To empirically demonstrate the robustness and effectiveness of KnowRU,
we perform extensive experiments on state-of-the-art multi-agent reinforcement
learning (MARL) algorithms on collaborative and competitive scenarios. The
results show that KnowRU can outperform the recently reported methods, which
emphasizes the importance of the proposed knowledge reusing for MARL.
- Abstract(参考訳): 近年,多エージェント領域における深層強化学習(RL)アルゴリズムの進歩が著しく進んでいる。
しかし、ますます複雑なタスクのトレーニングには時間がかかり、リソースが消費される。
この課題を緩和するには,過去の研究では経験の効率的な活用が不可欠であり,そのほとんどは複雑な設計と環境力学により,変分的システムにおいてこの目標を達成できない可能性がある。
本稿では,複雑な手書き設計を伴わずに,多エージェント強化学習アルゴリズムの大部分に容易に展開可能な知識再利用手法「KnowRU」を提案する。
我々は,エージェント間の知識伝達に知識蒸留パラダイムを用い,エージェントの漸近的性能を改善しつつ,新たなタスクのトレーニングフェーズを加速する目標を掲げた。
我々は,knowruのロバスト性と有効性を実証するために,協調的および競争的シナリオにおける最先端マルチエージェント強化学習(marl)アルゴリズムに関する広範囲な実験を行った。
その結果,KnowRUは近年報告されている手法よりも優れており,MARLにおける知識再利用の重要性を強調している。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - Synergistic Multi-Agent Framework with Trajectory Learning for Knowledge-Intensive Tasks [44.42989163847349]
大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて大きなブレークスルーをもたらした。
知識集約的なシナリオにおいて、現実的に一貫した応答を生成することは、依然として課題である。
本稿では,LSM生成応答の解釈可能性と現実的一貫性を高めるために,外部知識を活用する新しいマルチエージェントフレームワークSMARTを紹介する。
論文 参考訳(メタデータ) (2024-07-13T13:58:24Z) - WESE: Weak Exploration to Strong Exploitation for LLM Agents [95.6720931773781]
本稿では,オープンワールド対話型タスクの解法において,LLMエージェントの強化を目的としたWeak Exploration to Strong Exploitation (WESE)を提案する。
WESEは、探究と搾取のプロセスを分離し、費用対効果の弱いエージェントを用いて世界的知識の探索を行う。
次に、獲得した知識を格納し、タスク関連知識を抽出する知識グラフベースの戦略を導入する。
論文 参考訳(メタデータ) (2024-04-11T03:31:54Z) - Enabling Multi-Agent Transfer Reinforcement Learning via Scenario
Independent Representation [0.7366405857677227]
マルチエージェント強化学習(MARL)アルゴリズムは、エージェント間の協調や競合を必要とする複雑なタスクに広く採用されている。
本稿では,様々な状態空間を固定サイズの入力に統一することで,MARLの伝達学習を可能にする新しいフレームワークを提案する。
スクラッチから学習するエージェントと比較して,他のシナリオから学んだ操作スキルを用いたマルチエージェント学習性能の大幅な向上を示す。
論文 参考訳(メタデータ) (2024-02-13T02:48:18Z) - ExpeL: LLM Agents Are Experiential Learners [60.54312035818746]
実験学習エージェント(ExpeL)を導入し、パラメトリック更新を必要とせずにエージェント体験から学習できるようにする。
我々のエージェントは、経験を自律的に収集し、学習課題の集合から自然言語を用いて知識を抽出する。
推論において、エージェントは抽出された洞察と過去の経験をリコールし、情報的決定を行う。
論文 参考訳(メタデータ) (2023-08-20T03:03:34Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Relational Experience Replay: Continual Learning by Adaptively Tuning
Task-wise Relationship [54.73817402934303]
本稿では,2段階の学習フレームワークである経験連続再生(ERR)を提案する。
ERRは、すべてのベースラインの性能を一貫して改善し、現在の最先端の手法を超えることができる。
論文 参考訳(メタデータ) (2021-12-31T12:05:22Z) - Learning from Guided Play: A Scheduled Hierarchical Approach for
Improving Exploration in Adversarial Imitation Learning [7.51557557629519]
本稿では,主課題,複数の補助課題に加えて,専門家による実演を活用するためのフレームワークであるLearning from Guided Play (LfGP)を紹介する。
主なタスクに対する学習効率は、ボトルネック遷移に挑戦して改善され、専門家データがタスク間で再利用可能になり、学習した補助タスクモデルの再利用を通じて学習を移行することが可能になります。
論文 参考訳(メタデータ) (2021-12-16T14:58:08Z) - KnowSR: Knowledge Sharing among Homogeneous Agents in Multi-agent
Reinforcement Learning [16.167201058368303]
本稿では,KnowSRと呼ばれるマルチエージェント強化学習(MARL)アルゴリズムの適応手法を提案する。
我々は、知識蒸留(KD)の概念を用いて、訓練フェーズを短縮するためにエージェント間で知識を共有する。
KnowSRの堅牢性と有効性を実証的に示すために,我々は,協調的・競合的なシナリオにおける最先端のMARLアルゴリズムの広範な実験を行った。
論文 参考訳(メタデータ) (2021-05-25T02:19:41Z) - Meta-Reinforcement Learning Robust to Distributional Shift via Model
Identification and Experience Relabeling [126.69933134648541]
本稿では,テスト時にアウト・オブ・ディストリビューション・タスクに直面した場合に,効率よく外挿できるメタ強化学習アルゴリズムを提案する。
我々の手法は単純な洞察に基づいており、動的モデルが非政治データに効率的かつ一貫して適応可能であることを認識している。
論文 参考訳(メタデータ) (2020-06-12T13:34:46Z) - A new Potential-Based Reward Shaping for Reinforcement Learning Agent [0.0]
提案手法はエピソードの累積報酬から知識を抽出する。
その結果,シングルタスクとマルチタスク強化学習エージェントの学習プロセスの改善が示唆された。
論文 参考訳(メタデータ) (2019-02-17T10:34:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。