論文の概要: TGRL: An Algorithm for Teacher Guided Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2307.03186v1
- Date: Thu, 6 Jul 2023 17:58:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-07 12:57:52.948580
- Title: TGRL: An Algorithm for Teacher Guided Reinforcement Learning
- Title(参考訳): TGRL:教師指導強化学習のためのアルゴリズム
- Authors: Idan Shenfeld, Zhang-Wei Hong, Aviv Tamar, Pulkit Agrawal
- Abstract要約: 強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。
私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
- 参考スコア(独自算出の注目度): 29.006454394958755
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from rewards (i.e., reinforcement learning or RL) and learning to
imitate a teacher (i.e., teacher-student learning) are two established
approaches for solving sequential decision-making problems. To combine the
benefits of these different forms of learning, it is common to train a policy
to maximize a combination of reinforcement and teacher-student learning
objectives. However, without a principled method to balance these objectives,
prior work used heuristics and problem-specific hyperparameter searches to
balance the two objectives. We present a $\textit{principled}$ approach, along
with an approximate implementation for $\textit{dynamically}$ and
$\textit{automatically}$ balancing when to follow the teacher and when to use
rewards. The main idea is to adjust the importance of teacher supervision by
comparing the agent's performance to the counterfactual scenario of the agent
learning without teacher supervision and only from rewards. If using teacher
supervision improves performance, the importance of teacher supervision is
increased and otherwise it is decreased. Our method, $\textit{Teacher Guided
Reinforcement Learning}$ (TGRL), outperforms strong baselines across diverse
domains without hyper-parameter tuning.
- Abstract(参考訳): 報酬(強化学習またはrl)から学び、教師を模倣する学習(教師・学生学習)は、逐次的な意思決定問題を解決するために確立された2つのアプローチである。
これらの学習形態の利点を組み合わせるために、強化と教師-学生の学習目標の組合せを最大化するための政策を訓練することが一般的である。
しかしながら、これらの目的のバランスをとるための原則的な方法がなければ、以前の研究は2つの目的のバランスをとるためにヒューリスティックスと問題固有のハイパーパラメーターサーチを使用した。
私たちは、$\textit{principled}$アプローチと、$\textit{dynamically}$と$\textit{automatically}$ balanceingの近似実装を示します。
主な考え方は,教師の指導を伴わず,報酬のみから,エージェントのパフォーマンスとエージェント学習の反事実シナリオを比較して,教師の監督の重要性を調整することである。
教師の指導が向上すると、教師の監督の重要性が増し、それ以外は低下する。
我々のメソッドである$\textit{Teacher Guided Reinforcement Learning}$ (TGRL)は、ハイパーパラメータチューニングなしで様々なドメインで強いベースラインを上回ります。
関連論文リスト
- Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。
人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。
本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文 参考訳(メタデータ) (2024-10-03T14:09:58Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。
教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。
我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文 参考訳(メタデータ) (2023-10-23T18:54:43Z) - Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。
成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。
そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文 参考訳(メタデータ) (2023-03-03T06:24:04Z) - Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge
Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。
DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文 参考訳(メタデータ) (2022-06-13T11:52:13Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文 参考訳(メタデータ) (2021-05-06T09:32:57Z) - Active Imitation Learning from Multiple Non-Deterministic Teachers:
Formulation, Challenges, and Algorithms [3.6702509833426613]
我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。
まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。
次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
論文 参考訳(メタデータ) (2020-06-14T03:06:27Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。