論文の概要: Reinforcement Teaching
- arxiv url: http://arxiv.org/abs/2204.11897v3
- Date: Sat, 25 Jan 2025 23:12:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 20:38:01.791120
- Title: Reinforcement Teaching
- Title(参考訳): 強化指導
- Authors: Calarina Muslimani, Alex Lewandowski, Dale Schuurmans, Matthew E. Taylor, Jun Luo,
- Abstract要約: 我々は、機械学習アルゴリズムの学習プロセスを改善するために、強化指導と呼ばれる統一メタ学習フレームワークを開発する。
強化指導の下では、生徒の学習アルゴリズムを改善するために、強化を通じて教育方針が学習される。
強化指導の汎用性を示すために,教師が強化学習と教師あり学習アルゴリズムの両方を大幅に改善する実験を行った。
- 参考スコア(独自算出の注目度): 40.231724440690776
- License:
- Abstract: Machine learning algorithms learn to solve a task, but are unable to improve their ability to learn. Meta-learning methods learn about machine learning algorithms and improve them so that they learn more quickly. However, existing meta-learning methods are either hand-crafted to improve one specific component of an algorithm or only work with differentiable algorithms. We develop a unifying meta-learning framework, called Reinforcement Teaching, to improve the learning process of \emph{any} algorithm. Under Reinforcement Teaching, a teaching policy is learned, through reinforcement, to improve a student's learning algorithm. To learn an effective teaching policy, we introduce the parametric-behavior embedder that learns a representation of the student's learnable parameters from its input/output behavior. We further use learning progress to shape the teacher's reward, allowing it to more quickly maximize the student's performance. To demonstrate the generality of Reinforcement Teaching, we conduct experiments in which a teacher learns to significantly improve both reinforcement and supervised learning algorithms. Reinforcement Teaching outperforms previous work using heuristic reward functions and state representations, as well as other parameter representations.
- Abstract(参考訳): 機械学習アルゴリズムはタスクの解き方を学習するが、学習能力を改善することはできない。
メタ学習手法は機械学習アルゴリズムについて学び、より早く学習できるように改善する。
しかし、既存のメタ学習手法は、アルゴリズムの特定のコンポーネントを改善するために手作業で設計されるか、あるいは差別化可能なアルゴリズムでのみ動作する。
我々は,強化指導と呼ばれるメタラーニングフレームワークを開発し,emph{any}アルゴリズムの学習プロセスを改善する。
強化指導の下では、生徒の学習アルゴリズムを改善するために、強化を通じて教育方針が学習される。
効果的な教育方針を学習するために,学生の学習可能なパラメータの表現を入出力行動から学習するパラメトリック・ビヘイビア・埋め込み機を導入する。
さらに、学習の進歩を利用して教師の報酬を形作り、生徒のパフォーマンスをより迅速に最大化する。
強化指導の汎用性を示すために,教師が強化学習と教師あり学習アルゴリズムの両方を大幅に改善する実験を行った。
強化教育は、ヒューリスティックな報酬関数や状態表現、および他のパラメータ表現を用いて、以前の作業より優れている。
関連論文リスト
- RLIF: Interactive Imitation Learning as Reinforcement Learning [56.997263135104504]
我々は,対話型模倣学習と類似するが,さらに実践的な仮定の下で,非政治強化学習によってパフォーマンスが向上できることを実証する。
提案手法は,ユーザ介入信号を用いた強化学習を報奨として利用する。
このことは、インタラクティブな模倣学習において介入する専門家がほぼ最適であるべきだという仮定を緩和し、アルゴリズムが潜在的に最適でない人間の専門家よりも改善される行動を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-11-21T21:05:21Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Meta Learning for Knowledge Distillation [12.716258111815312]
教師ネットワークは、学生ネットワークにより良い知識を伝達することを学ぶことができることを示す。
内部学習者とメタ学習者の整合性を改善するためのパイロット更新機構を導入する。
論文 参考訳(メタデータ) (2021-06-08T17:59:03Z) - Learning by Teaching, with Application to Neural Architecture Search [10.426533624387305]
学習による学習(LBT)と呼ばれる新しいMLフレームワークを提案する。
lbtでは、教師モデルが生徒モデルにうまく学ぶように教えることで自己改善する。
バリデーションデータセットで生徒がどのように振る舞うかに基づいて、教師はモデルを再学習し、生徒が優れたバリデーション性能に達するまで再指導する。
論文 参考訳(メタデータ) (2021-03-11T23:50:38Z) - Teaching to Learn: Sequential Teaching of Agents with Inner States [20.556373950863247]
学習者の内的状態が授業の相互作用によって変化するようなマルチエージェントの定式化を導入する。
このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。
論文 参考訳(メタデータ) (2020-09-14T07:03:15Z) - Mastering Rate based Curriculum Learning [78.45222238426246]
学習の進行という概念には、学習者のサンプル効率の低下につながるいくつかの欠点があると主張する。
本稿では,習得率の概念に基づく新しいアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-14T16:34:01Z) - Interaction-limited Inverse Reinforcement Learning [50.201765937436654]
本稿では,教師の視点をカバーしたカリキュラム逆強化学習(CIRL)と,学習者の視点に着目した自己適用逆強化学習(SPIRL)の2つの訓練戦略を提案する。
シミュレーション実験と実ロボットを用いた実験により,CIRLの無作為教師やSPIRLのバッチ学習者よりも高速な学習が可能であることを示す。
論文 参考訳(メタデータ) (2020-07-01T12:31:52Z) - Emergent Real-World Robotic Skills via Unsupervised Off-Policy
Reinforcement Learning [81.12201426668894]
報奨関数を使わずに多様なスキルを習得し,これらのスキルを下流のタスクに再利用する効率的な強化学習手法を開発した。
提案アルゴリズムは学習効率を大幅に向上させ,報酬のない実世界のトレーニングを実現する。
また,学習スキルは,目標指向ナビゲーションのためのモデル予測制御を用いて,追加のトレーニングを伴わずに構成可能であることも実証した。
論文 参考訳(メタデータ) (2020-04-27T17:38:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。