Fugu-MT 論文翻訳(概要): TGRL: An Algorithm for Teacher Guided Reinforcement Learning

論文の概要: TGRL: An Algorithm for Teacher Guided Reinforcement Learning

arxiv url: http://arxiv.org/abs/2307.03186v1
Date: Thu, 6 Jul 2023 17:58:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-07 12:57:52.948580
Title: TGRL: An Algorithm for Teacher Guided Reinforcement Learning
Title（参考訳）: TGRL:教師指導強化学習のためのアルゴリズム
Authors: Idan Shenfeld, Zhang-Wei Hong, Aviv Tamar, Pulkit Agrawal
Abstract要約: 強化と教師の学習目標を最大限にするための政策を訓練することが一般的である。私たちは、$textitprincipled$アプローチと、$textitdynamically$と$textitautomatically$の近似実装を示します。
参考スコア（独自算出の注目度）: 29.006454394958755
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Learning from rewards (i.e., reinforcement learning or RL) and learning to imitate a teacher (i.e., teacher-student learning) are two established approaches for solving sequential decision-making problems. To combine the benefits of these different forms of learning, it is common to train a policy to maximize a combination of reinforcement and teacher-student learning objectives. However, without a principled method to balance these objectives, prior work used heuristics and problem-specific hyperparameter searches to balance the two objectives. We present a $\textit{principled}$ approach, along with an approximate implementation for $\textit{dynamically}$ and $\textit{automatically}$ balancing when to follow the teacher and when to use rewards. The main idea is to adjust the importance of teacher supervision by comparing the agent's performance to the counterfactual scenario of the agent learning without teacher supervision and only from rewards. If using teacher supervision improves performance, the importance of teacher supervision is increased and otherwise it is decreased. Our method, $\textit{Teacher Guided Reinforcement Learning}$ (TGRL), outperforms strong baselines across diverse domains without hyper-parameter tuning.
Abstract（参考訳）: 報酬(強化学習またはrl)から学び、教師を模倣する学習(教師・学生学習)は、逐次的な意思決定問題を解決するために確立された2つのアプローチである。これらの学習形態の利点を組み合わせるために、強化と教師-学生の学習目標の組合せを最大化するための政策を訓練することが一般的である。しかしながら、これらの目的のバランスをとるための原則的な方法がなければ、以前の研究は2つの目的のバランスをとるためにヒューリスティックスと問題固有のハイパーパラメーターサーチを使用した。私たちは、$\textit{principled}$アプローチと、$\textit{dynamically}$と$\textit{automatically}$ balanceingの近似実装を示します。主な考え方は,教師の指導を伴わず,報酬のみから,エージェントのパフォーマンスとエージェント学習の反事実シナリオを比較して,教師の監督の重要性を調整することである。教師の指導が向上すると、教師の監督の重要性が増し、それ以外は低下する。我々のメソッドである$\textit{Teacher Guided Reinforcement Learning}$ (TGRL)は、ハイパーパラメータチューニングなしで様々なドメインで強いベースラインを上回ります。

関連論文リスト

Alice: Proactive Learning with Teacher's Demonstrations for Weak-to-Strong Generalization [69.96794098855938]
Weak-to-strong Generalization (W2SG)は、ますます有能な言語モデル(LLM)を監督するための有望なフレームワークを提供する。伝統的なW2SG手法は受動的学習に依存しており、弱い教師は強い生徒を訓練するためにノイズの多いデモを提供する。教師と生徒の相補的な知識を活用して学習プロセスを強化するフレームワークであるAliceを紹介した。
論文参考訳（メタデータ） (2025-04-09T22:33:06Z)
Dual Active Learning for Reinforcement Learning from Human Feedback [13.732678966515781]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデルと人間の好みを合わせるために広く応用されている。人間のフィードバックは高価で時間を要するため、人間の教師がラベルを付けるための高品質な会話データを集めることが不可欠である。本稿では、オフライン強化学習(RL)を用いてアライメント問題を定式化する。
論文参考訳（メタデータ） (2024-10-03T14:09:58Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
Active teacher selection for reinforcement learning from human feedback [14.009227941725783]
人間のフィードバックからの強化学習(RLHF)により、機械学習システムは人間のフィードバックから目的を学ぶことができる。教師の合理性、専門性、コストの相違をモデル化するHidden Utility Banditフレームワークを提案する。我々は、さまざまなソリューションアルゴリズムを開発し、それらを紙レコメンデーションシステムと新型コロナウイルスワクチンテストという2つの現実世界の領域に適用する。
論文参考訳（メタデータ） (2023-10-23T18:54:43Z)
Guarded Policy Optimization with Imperfect Online Demonstrations [32.22880650876471]
Teacher-Student Frameworkは、教師エージェントが学生エージェントのトレーニングをガードする強化学習環境である。成績の良い教師の政策を得るのは費用がかかるか、あるいは不可能である。そこで我々は,任意の教師ポリシーを質素あるいは劣悪な性能で組み込む新しい手法を開発した。
論文参考訳（メタデータ） (2023-03-03T06:24:04Z)
Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation [70.92135839545314]
本研究では,教師の持つ特徴の一部を,特徴蒸留前の先行知識として統合した動的事前知識(DPK)を提案する。 DPKは,教員モデルと生徒モデルのパフォーマンスを正に相関させ,より大きな教員を適用することで生徒の精度をさらに高めることができる。
論文参考訳（メタデータ） (2022-06-13T11:52:13Z)
Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文参考訳（メタデータ） (2021-10-01T00:27:47Z)
Distribution Matching for Machine Teaching [64.39292542263286]
機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。本稿では,分布マッチングに基づく機械教育戦略を提案する。
論文参考訳（メタデータ） (2021-05-06T09:32:57Z)
Active Imitation Learning from Multiple Non-Deterministic Teachers: Formulation, Challenges, and Algorithms [3.6702509833426613]
我々は,対話コストを最小に抑えつつ,複数の非決定論的教師を模倣する学習の問題を定式化する。まず,教師の方針の連続表現を学習することで,そのような分布を効率的にモデル化し,推定する一般的な枠組みを提案する。次に,学習者と教師のインタラクションコストを削減するための能動的学習アルゴリズムである,能動的パフォーマンスに基づく模倣学習(APIL)を開発した。
論文参考訳（メタデータ） (2020-06-14T03:06:27Z)
Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文参考訳（メタデータ） (2020-06-07T06:49:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。