論文の概要: Distribution Matching for Machine Teaching
- arxiv url: http://arxiv.org/abs/2105.13809v1
- Date: Thu, 6 May 2021 09:32:57 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-06 12:24:05.815269
- Title: Distribution Matching for Machine Teaching
- Title(参考訳): 機械教育のための分布マッチング
- Authors: Xiaofeng Cao and Ivor W. Tsang
- Abstract要約: 機械学習の逆問題である機械学習は、学習者の目標仮説に向けて学習者を操ることを目的としている。
機械教育に関するこれまでの研究は、それらの最良の指導例を見つけるための教育のリスクとコストのバランスに重点を置いていた。
本稿では,分布マッチングに基づく機械教育戦略を提案する。
- 参考スコア(独自算出の注目度): 64.39292542263286
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine teaching is an inverse problem of machine learning that aims at
steering the student learner towards its target hypothesis, in which the
teacher has already known the student's learning parameters. Previous studies
on machine teaching focused on balancing the teaching risk and cost to find
those best teaching examples deriving the student model. This optimization
solver is in general ineffective when the student learner does not disclose any
cue of the learning parameters. To supervise such a teaching scenario, this
paper presents a distribution matching-based machine teaching strategy.
Specifically, this strategy backwardly and iteratively performs the halving
operation on the teaching cost to find a desired teaching set. Technically, our
strategy can be expressed as a cost-controlled optimization process that finds
the optimal teaching examples without further exploring in the parameter
distribution of the student learner. Then, given any a limited teaching cost,
the training examples will be closed-form. Theoretical analysis and experiment
results demonstrate this strategy.
- Abstract(参考訳): 機械学習は、生徒の学習パラメータを既に知っている教師がターゲット仮説に向かって学習者を操ることを目的とした、機械学習の逆問題である。
従来の機械教育研究は、学生モデルに基づく最良の指導例を見つけるための教育リスクとコストのバランスに重点を置いていた。
この最適化解法は、学習者が学習パラメータの手がかりを開示しない場合、一般に非効率である。
このような教育シナリオを監督するために,分布整合型機械教育戦略を提案する。
特に、この戦略は、所望の授業セットを見つけるために、教育コストの半減操作を後方かつ反復的に行う。
技術的には、我々の戦略は、学生学習者のパラメータ分布をさらに探ることなく、最適指導例を見つけるためのコスト制御最適化プロセスとして表現できる。
そして、教育費が限られていると、トレーニングの例がクローズド形式になる。
理論的解析と実験の結果はこの戦略を示している。
関連論文リスト
- Toward In-Context Teaching: Adapting Examples to Students' Misconceptions [54.82965010592045]
本稿ではAdapTと呼ばれる一連のモデルと評価手法を紹介する。
AToMは、学生の過去の信念を共同で推論し、将来の信念の正しさを最適化する適応教育の新しい確率論的モデルである。
本研究は,適応型学習課題の難しさと,それを解決するための学習適応モデルの可能性を両立させるものである。
論文 参考訳(メタデータ) (2024-05-07T17:05:27Z) - One-shot Machine Teaching: Cost Very Few Examples to Converge Faster [45.96956111867065]
単発機械教育という,よりインテリジェントな教育パラダイムについて検討する。
学習セットからモデルパラメータへの抽出可能なマッピングを確立する。
この写像が主観的であることを証明し、最適指導セットの存在を保証する。
論文 参考訳(メタデータ) (2022-12-13T07:51:17Z) - Iterative Teacher-Aware Learning [136.05341445369265]
人間の教育において、教師と学生はコミュニケーション効率を最大化するために適応的に交流することができる。
本稿では,教師の協調意図を可能性関数に組み込むことができる,勾配最適化に基づく教師認識学習者を提案する。
論文 参考訳(メタデータ) (2021-10-01T00:27:47Z) - Teaching to Learn: Sequential Teaching of Agents with Inner States [20.556373950863247]
学習者の内的状態が授業の相互作用によって変化するようなマルチエージェントの定式化を導入する。
このような学習者を指導するために,学習者の今後のパフォーマンスを考慮に入れた最適制御手法を提案する。
論文 参考訳(メタデータ) (2020-09-14T07:03:15Z) - Iterative Machine Teaching without Teachers [12.239246363539634]
既存の反復型機械教育の研究は、すべての指導例の真の答えを知っている教師がいると仮定している。
本研究では,そのような教師が存在しない教師なしの事例について考察する。
生徒は各イテレーションで指導例を与えられるが、対応するラベルが正しいかどうか保証はない。
論文 参考訳(メタデータ) (2020-06-27T11:21:57Z) - The Sample Complexity of Teaching-by-Reinforcement on Q-Learning [40.37954633873304]
本研究は,TDim (Teaching dimension) と称される授業の複雑さを,TDim(Teaching dimension,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim, TDim,TDim,TDim,TDim,TDim,TDim,TDim,TDim)
本稿では,TDimを,環境に対する制御能力の異なる教師によって特徴付ける,強化学習アルゴリズム,Q-ラーニング,TDimの特定のファミリーに焦点をあてる。
TDimの結果は、強化学習に必要なサンプルの最小数を提供し、標準的なPACスタイルのRLサンプルの複雑さと、実演によるサンプルの複雑さとを関連づける。
論文 参考訳(メタデータ) (2020-06-16T17:06:04Z) - Dual Policy Distillation [58.43610940026261]
教員政策を学生政策に転換する政策蒸留は、深層強化学習の課題において大きな成功を収めた。
本研究では,2人の学習者が同じ環境下で活動し,環境の異なる視点を探索する,学生学生による二重政策蒸留(DPD)を導入する。
この二重学習フレームワークを開発する上で重要な課題は、同時代の学習に基づく強化学習アルゴリズムにおいて、ピア学習者から有益な知識を特定することである。
論文 参考訳(メタデータ) (2020-06-07T06:49:47Z) - Provable Representation Learning for Imitation Learning via Bi-level
Optimization [60.059520774789654]
現代の学習システムにおける一般的な戦略は、多くのタスクに有用な表現を学ぶことである。
我々は,複数の専門家の軌道が利用できるマルコフ決定過程(MDP)の模倣学習環境において,この戦略を研究する。
このフレームワークは,行動のクローン化と観察-アローンの模倣学習設定のためにインスタンス化する。
論文 参考訳(メタデータ) (2020-02-24T21:03:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。