論文の概要: Expert-Free Online Transfer Learning in Multi-Agent Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2303.01170v3
- Date: Fri, 28 Jul 2023 11:52:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-31 16:11:24.318632
- Title: Expert-Free Online Transfer Learning in Multi-Agent Reinforcement
Learning
- Title(参考訳): マルチエージェント強化学習におけるエキスパートフリーオンライン転送学習
- Authors: Alberto Castagna and Ivana Dusparic
- Abstract要約: Expert-Free Online Transfer Learning (EF-OnTL) は、マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を可能にするアルゴリズムである。
EF-OnTLはアドバイスベースのベースラインと比較すると、全体的なパフォーマンスが向上する。
- 参考スコア(独自算出の注目度): 2.984934409689467
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transfer learning in Reinforcement Learning (RL) has been widely studied to
overcome training issues of Deep-RL, i.e., exploration cost, data availability
and convergence time, by introducing a way to enhance training phase with
external knowledge. Generally, knowledge is transferred from expert-agents to
novices. While this fixes the issue for a novice agent, a good understanding of
the task on expert agent is required for such transfer to be effective. As an
alternative, in this paper we propose Expert-Free Online Transfer Learning
(EF-OnTL), an algorithm that enables expert-free real-time dynamic transfer
learning in multi-agent system. No dedicated expert exists, and transfer source
agent and knowledge to be transferred are dynamically selected at each transfer
step based on agents' performance and uncertainty. To improve uncertainty
estimation, we also propose State Action Reward Next-State Random Network
Distillation (sars-RND), an extension of RND that estimates uncertainty from RL
agent-environment interaction. We demonstrate EF-OnTL effectiveness against a
no-transfer scenario and advice-based baselines, with and without expert
agents, in three benchmark tasks: Cart-Pole, a grid-based Multi-Team
Predator-Prey (mt-pp) and Half Field Offense (HFO). Our results show that
EF-OnTL achieve overall comparable performance when compared against
advice-based baselines while not requiring any external input nor threshold
tuning. EF-OnTL outperforms no-transfer with an improvement related to the
complexity of the task addressed.
- Abstract(参考訳): 強化学習(rl)におけるトランスファーラーニングは、外部知識によるトレーニングフェーズを強化する方法を導入することで、深層rlのトレーニング問題、すなわち探索コスト、データ可用性、収束時間を克服するために広く研究されている。
一般的に知識は専門家から初心者に移される。
これにより、初心者エージェントの問題は解決されるが、そのような転送が効果的になるためには、エキスパートエージェントのタスクを十分に理解する必要がある。
本稿では,マルチエージェントシステムにおけるエキスパートフリーリアルタイム動的トランスファー学習を実現するアルゴリズムであるExpert-Free Online Transfer Learning (EF-OnTL)を提案する。
専用の専門家は存在せず、エージェントのパフォーマンスや不確実性に基づいて、転送ステップ毎に転送するトランスファーソースエージェントと知識を動的に選択する。
不確実性推定を改善するため,RLエージェントと環境相互作用から不確実性を評価するRNDの拡張であるState Action Reward Next-State Random Network Distillation (sars-RND)を提案する。
専門家エージェントの有無に関わらず,ef-ontlが非転送シナリオやアドバイスベースのベースラインに対して,cart-pole,mt-pp,hfo(half field offense)という3つのベンチマークタスクで有効性を示す。
その結果,ef-ontlは外部入力やしきい値チューニングを必要とせず,アドバイスベースのベースラインと比較した場合,全体的な比較性能が得られることがわかった。
EF-OnTLは、対処されるタスクの複雑さに関連する改善によって、非トランスファーよりも優れています。
関連論文リスト
- From Novice to Expert: LLM Agent Policy Optimization via Step-wise Reinforcement Learning [62.54484062185869]
本稿では,エージェントの強化学習プロセスの最適化にステップワイド報酬を利用するStepAgentを紹介する。
エージェント反射とポリシー調整を容易にする暗黙の逆・逆の強化学習手法を提案する。
論文 参考訳(メタデータ) (2024-11-06T10:35:11Z) - RILe: Reinforced Imitation Learning [60.63173816209543]
RILeは、学生のパフォーマンスと専門家によるデモンストレーションとの整合性に基づいて、動的報酬関数を学習する新しいトレーナー学生システムである。
RILeは、従来のメソッドがフェールする複雑な環境でのより良いパフォーマンスを実現し、複雑なシミュレートされたロボット移動タスクにおいて、既存のメソッドを2倍の性能で上回る。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Data-Driven Inverse Reinforcement Learning for Expert-Learner Zero-Sum
Games [30.720112378448285]
逆強化学習をエキスパート-ラーナーインタラクションとして定式化する。
学習者エージェントに対して、専門家や対象エージェントの最適性能意図が不明である。
我々は、専門家や学習者エージェントのダイナミクスの知識を必要としない、政治以外のIRLアルゴリズムを開発した。
論文 参考訳(メタデータ) (2023-01-05T10:35:08Z) - Discriminator-Weighted Offline Imitation Learning from Suboptimal
Demonstrations [5.760034336327491]
エージェントがオンライン環境を付加せずに最適な専門家行動ポリシーを学習することを目的としたオフライン学習(IL)の課題について検討する。
専門家と非専門家のデータを区別するために,新たな識別器を導入する。
提案アルゴリズムは,ベースラインアルゴリズムよりも高いリターンと高速なトレーニング速度を実現する。
論文 参考訳(メタデータ) (2022-07-20T17:29:04Z) - Transferred Q-learning [79.79659145328856]
我々は、目標強化学習(RL)タスクのサンプルと、異なるが関連するRLタスクのソースサンプルを用いて、知識伝達を伴うQ$ラーニングについて検討する。
オフラインのソーススタディを用いたバッチとオンラインの$Q$ラーニングのためのトランスファー学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-02-09T20:08:19Z) - Self-Supervised Knowledge Transfer via Loosely Supervised Auxiliary
Tasks [24.041268664220294]
畳み込みニューラルネットワーク(CNN)を用いた知識伝達は、より少ないパラメータでCNNを効率的に訓練したり、限られた監督下での一般化性能を最大化することができる。
本稿では,ネットワーク構造やデータセットに制約を加えることなく,シンプルな知識伝達手法を提案する。
本研究では,従来の知識を現在の学習プロセスに伝達する学習手法を,ソフトラベルを用いた自己監督を通じて,目標タスクの補助的タスクとして考案する。
論文 参考訳(メタデータ) (2021-10-25T07:18:26Z) - Targeted Data Acquisition for Evolving Negotiation Agents [6.953246373478702]
成功した交渉者は、自己利益と協力のために最適化のバランスをとる方法を学ばなければならない。
現在の人工交渉エージェントは、トレーニングされた静的データセットの品質に大きく依存することが多い。
我々は、強化学習エージェントの探索をガイドするターゲットデータ取得フレームワークを導入する。
論文 参考訳(メタデータ) (2021-06-14T19:45:59Z) - PEBBLE: Feedback-Efficient Interactive Reinforcement Learning via
Relabeling Experience and Unsupervised Pre-training [94.87393610927812]
我々は、フィードバックと非政治学習の両方の長所を生かした、非政治的、インタラクティブな強化学習アルゴリズムを提案する。
提案手法は,従来ヒト・イン・ザ・ループ法で検討されていたよりも複雑度の高いタスクを学習可能であることを実証する。
論文 参考訳(メタデータ) (2021-06-09T14:10:50Z) - PsiPhi-Learning: Reinforcement Learning with Demonstrations using
Successor Features and Inverse Temporal Difference Learning [102.36450942613091]
時間差学習(ITD)と呼ばれる逆強化学習アルゴリズムを提案する。
Psi Phi$-learningと呼ばれるデモで強化学習のための新しいアルゴリズムに到達し、オンライン環境の相互作用から学習とITDをシームレスに統合する方法を示します。
論文 参考訳(メタデータ) (2021-02-24T21:12:09Z) - Transfer Heterogeneous Knowledge Among Peer-to-Peer Teammates: A Model
Distillation Approach [55.83558520598304]
本研究は, モデル蒸留により, 複数の学生間で経験と伝達値関数を再利用する新しい手法を提案する。
また、異種知識を活用するための効率的な通信プロトコルの設計方法について述べる。
提案するフレームワークである学習・指導カテゴリー強化は,学習の進捗を安定化・加速する上で有望な性能を示す。
論文 参考訳(メタデータ) (2020-02-06T11:31:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。