論文の概要: Learning on a Budget via Teacher Imitation
- arxiv url: http://arxiv.org/abs/2104.08440v1
- Date: Sat, 17 Apr 2021 04:15:00 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-24 06:13:47.598241
- Title: Learning on a Budget via Teacher Imitation
- Title(参考訳): 教師の模倣による予算の学習
- Authors: Ercument Ilhan, Jeremy Gow and Diego Perez-Liebana
- Abstract要約: アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。
我々は,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の両問題に対処する統一的なアプローチを構築する。
- 参考スコア(独自算出の注目度): 0.5185131234265025
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Reinforcement Learning (RL) techniques can benefit greatly from
leveraging prior experience, which can be either self-generated or acquired
from other entities. Action advising is a framework that provides a flexible
way to transfer such knowledge in the form of actions between teacher-student
peers. However, due to the realistic concerns, the number of these interactions
is limited with a budget; therefore, it is crucial to perform these in the most
appropriate moments. There have been several promising studies recently that
address this problem setting especially from the student's perspective. Despite
their success, they have some shortcomings when it comes to the practical
applicability and integrity as an overall solution to the learning from advice
challenge. In this paper, we extend the idea of advice reusing via teacher
imitation to construct a unified approach that addresses both advice collection
and advice utilisation problems. Furthermore, we also propose a method to
automatically determine the relevant hyperparameters of these components
on-the-fly to make it able to adapt to any task with minimal human
intervention. The experiments we performed in 5 different Atari games verify
that our algorithm can outperform its competitors by achieving state-of-the-art
performance, and its components themselves also provides significant advantages
individually.
- Abstract(参考訳): deep reinforcement learning(rl)テクニックは、自己生成あるいは他のエンティティから取得可能な、事前のエクスペリエンスを活用することで、大きなメリットを享受することができる。
アクションアドバイザリング(Action Advising)は、教師-学生間のアクションの形でそのような知識を伝達する柔軟な方法を提供するフレームワークである。
しかし、現実的な懸念から、これらの相互作用の数は予算に制限されているため、これらを最も適切なタイミングで実行することが不可欠である。
近年,特に学生の視点から,この問題に対処する有望な研究がいくつかある。
彼らの成功にもかかわらず、アドバイスチャレンジから学ぶための全体的な解決策として、実用的適用性と整合性に関していくつかの欠点がある。
本稿では,教師の模倣によるアドバイス再利用の概念を拡張し,アドバイス収集とアドバイス活用の問題に対処する統一的なアプローチを構築する。
また,人間の介入を最小限に抑えながら任意のタスクに適応できるように,これらのコンポーネントのパラメータを自動的に決定する手法も提案する。
5つの異なるAtariゲームで行った実験は、我々のアルゴリズムが最先端のパフォーマンスを達成し、競争相手よりも優れていることを検証する。
関連論文リスト
- Learning to Assist Humans without Inferring Rewards [65.28156318196397]
我々は、エンパワーメントのレンズを通して支援を研究する先行研究に基づいて構築する。
補助剤は、人間の行動の影響を最大化することを目的としている。
これらの表現は、先行研究と類似したエンパワーメントの概念を推定する。
論文 参考訳(メタデータ) (2024-11-04T21:31:04Z) - RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Optimising Human-AI Collaboration by Learning Convincing Explanations [62.81395661556852]
本研究では,人間による意思決定によって安全を保ちながら協調的なシステムを構築する手法を提案する。
Ardentは、説明のための個人の好みに適応することで、効率的で効果的な意思決定を可能にする。
論文 参考訳(メタデータ) (2023-11-13T16:00:16Z) - Resilient Constrained Learning [94.27081585149836]
本稿では,学習課題を同時に解決しながら,要求に適応する制約付き学習手法を提案する。
我々はこの手法を、その操作を変更することで破壊に適応する生態システムを記述する用語に因んで、レジリエントな制約付き学習と呼ぶ。
論文 参考訳(メタデータ) (2023-06-04T18:14:18Z) - Rethinking Learning Dynamics in RL using Adversarial Networks [79.56118674435844]
本稿では,スキル埋め込み空間を通じてパラメータ化された,密接に関連するスキルの強化学習のための学習機構を提案する。
本研究の主な貢献は、エントロピー規則化政策勾配定式化の助けを借りて、強化学習のための敵の訓練体制を定式化することである。
論文 参考訳(メタデータ) (2022-01-27T19:51:09Z) - Action Advising with Advice Imitation in Deep Reinforcement Learning [0.5185131234265025]
行動助言は、教師と学生のパラダイムに基づいて構築されたピアツーピアの知識交換技術です。
本稿では,学生エージェントが以前取得したアドバイスを模倣して,調査方針で直接再利用する手法を提案する。
論文 参考訳(メタデータ) (2021-04-17T04:24:04Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Human AI interaction loop training: New approach for interactive
reinforcement learning [0.0]
機械学習の様々な意思決定タスクにおける強化学習(RL)は、スタンドアロンの報酬関数から学習するエージェントによる効果的な結果を提供する。
RLは、多くの環境状態と行動空間、および報酬の決定に固有の課題を提示する。
イミテーションラーニング(IL)は、教師を使った課題に対して有望な解決策を提供する。
論文 参考訳(メタデータ) (2020-03-09T15:27:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。