論文の概要: Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios
- arxiv url: http://arxiv.org/abs/2405.14199v1
- Date: Thu, 23 May 2024 05:52:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 18:45:29.231849
- Title: Adaptive Teaching in Heterogeneous Agents: Balancing Surprise in Sparse Reward Scenarios
- Title(参考訳): 不均一なエージェントの適応的指導:スパース・リワードシナリオにおけるバランス
- Authors: Emma Clark, Kanghyun Ryu, Negar Mehr,
- Abstract要約: 実証から学ぶことは、類似エージェントでシステムを訓練する効果的な方法である。
しかし、生徒の能力の限界から外れたデモを自然に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 3.638198517970729
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Learning from Demonstration (LfD) can be an efficient way to train systems with analogous agents by enabling ``Student'' agents to learn from the demonstrations of the most experienced ``Teacher'' agent, instead of training their policy in parallel. However, when there are discrepancies in agent capabilities, such as divergent actuator power or joint angle constraints, naively replicating demonstrations that are out of bounds for the Student's capability can limit efficient learning. We present a Teacher-Student learning framework specifically tailored to address the challenge of heterogeneity between the Teacher and Student agents. Our framework is based on the concept of ``surprise'', inspired by its application in exploration incentivization in sparse-reward environments. Surprise is repurposed to enable the Teacher to detect and adapt to differences between itself and the Student. By focusing on maximizing its surprise in response to the environment while concurrently minimizing the Student's surprise in response to the demonstrations, the Teacher agent can effectively tailor its demonstrations to the Student's specific capabilities and constraints. We validate our method by demonstrating improvements in the Student's learning in control tasks within sparse-reward environments.
- Abstract(参考訳): 実証から学ぶ (LfD) は、『Student』エージェントが最も経験豊富な『Teacher』エージェントのデモンストレーションから学べるようにすることで、類似エージェントでシステムを訓練する効果的な方法である。
しかし、発散アクチュエータパワーや関節角度制約などのエージェント能力に相違がある場合、生徒の能力の限界から外れた実演を視覚的に複製することは、効率的な学習を制限することができる。
本稿では,教師と学生エージェントの異質性の課題に対処するために,教員-学生学習フレームワークを提案する。
我々のフレームワークは「サプライズ」の概念に基づいており、スパース・リワード環境における探索のインセンティブ化に着想を得たものである。
サプライズ(サプライズ)は、教師が自分と学生の違いを検知し、適応できるようにするために再利用される。
実演に対する学生のサプライズを同時に最小化しながら、環境に対するサプライズを最大化することに集中することにより、教師は生徒の特定の能力や制約に効果的に適応することができる。
スパース・リワード環境における制御課題における学生の学習改善を実証し,本手法の有効性を検証した。
関連論文リスト
- RILe: Reinforced Imitation Learning [60.63173816209543]
Imitation Learning と Inverse Reinforcement Learning の逆の変種は、判別器を介して専門家によるデモンストレーションからポリシーを学ぶことで代替手段を提供する。
本稿では,不完全なデータと効率の両面において頑健性を実現する教師学生システムであるRILeを提案する。
論文 参考訳(メタデータ) (2024-06-12T17:56:31Z) - Beyond Joint Demonstrations: Personalized Expert Guidance for Efficient Multi-Agent Reinforcement Learning [54.40927310957792]
異種チーム内の各エージェントを個別にカスタマイズした、個人化された専門家によるデモンストレーションという新しい概念を導入する。
これらのデモンストレーションは、単独エージェントの行動と、各エージェントが協調的な要素を含まない個人的目標を達成する方法にのみ関係している。
本稿では、個人化された専門家によるデモンストレーションをガイダンスとして選択的に活用し、エージェントが協力することを学ぶためのアプローチを提案する。
論文 参考訳(メタデータ) (2024-03-13T20:11:20Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z) - Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer [5.731477362725785]
本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Explainable Action Advising for Multi-Agent Reinforcement Learning [32.49380192781649]
アクションアドバイザリング(Action Advising)とは、教師-学生パラダイムに基づく強化学習のための知識伝達技術である。
本稿では,教師がアクションアドバイスと関連する説明を提示し,アクションが選択された理由を説明するための説明可能なアクションアドバイスを紹介する。
これにより、学生は学んだことを自己認識し、一般化アドバイスを可能にし、サンプル効率と学習性能を向上させることができる。
論文 参考訳(メタデータ) (2022-11-15T04:15:03Z) - The Wits Intelligent Teaching System: Detecting Student Engagement
During Lectures Using Convolutional Neural Networks [0.30458514384586394]
Wits Intelligent Teaching System (WITS) は、学生の感情に関するリアルタイムフィードバックを講師に支援することを目的としている。
AlexNetベースのCNNはトレーニングが成功し、Support Vector Machineアプローチを大きく上回っている。
論文 参考訳(メタデータ) (2021-05-28T12:59:37Z) - Privacy-Preserving Teacher-Student Deep Reinforcement Learning [23.934121758649052]
教師のトレーニングデータセットのプライバシーを保護するプライベートなメカニズムを開発しています。
このアルゴリズムは学生の集中率と実用性を改善することを実証的に示した。
論文 参考訳(メタデータ) (2021-02-18T20:15:09Z) - Bridging the Imitation Gap by Adaptive Insubordination [88.35564081175642]
教官が特権情報にアクセスして意思決定を行う場合、この情報は模倣学習中に疎外されることを示す。
本稿では,このギャップに対処するため,適応的不規則化(ADVISOR)を提案する。
ADVISORは、トレーニング中の模倣と報酬に基づく強化学習損失を動的に重み付け、模倣と探索をオンザフライで切り替えることを可能にする。
論文 参考訳(メタデータ) (2020-07-23T17:59:57Z) - Reinforcement Learning with Supervision from Noisy Demonstrations [38.00968774243178]
本研究では,環境と協調して対話し,専門家による実演を生かして政策を適応的に学習する新しい枠組みを提案する。
複数の人気強化学習アルゴリズムを用いた各種環境における実験結果から,提案手法はノイズの多い実演で頑健に学習可能であることが示された。
論文 参考訳(メタデータ) (2020-06-14T06:03:06Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。