論文の概要: Random Teachers are Good Teachers
- arxiv url: http://arxiv.org/abs/2302.12091v1
- Date: Thu, 23 Feb 2023 15:26:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-24 14:50:13.249353
- Title: Random Teachers are Good Teachers
- Title(参考訳): ランダムな教師は良い教師です
- Authors: Felix Sarnthein, Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
- Abstract要約: 教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。
このような無作為な教師に学生を蒸留する際には,その教師に対する生徒の強い改善を,確率的精度で観察する。
学生が教師と密接な関係にある場合,特徴学習のプロセスは強く増幅される。
- 参考スコア(独自算出の注目度): 19.74244993871716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the implicit regularization induced by
teacher-student learning dynamics. To isolate its effect, we describe a simple
experiment where instead of trained teachers, we consider teachers at random
initialization. Surprisingly, when distilling a student into such a random
teacher, we observe that the resulting model and its representations already
possess very interesting characteristics; (1) we observe a strong improvement
of the distilled student over its teacher in terms of probing accuracy. (2) The
learnt representations are highly transferable between different tasks but
deteriorate strongly if trained on random inputs. (3) The student checkpoint
suffices to discover so-called lottery tickets, i.e. it contains identifiable,
sparse networks that are as performant as the full network. These observations
have interesting consequences for several important areas in machine learning:
(1) Self-distillation can work solely based on the implicit regularization
present in the gradient dynamics without relying on any \textit{dark
knowledge}, (2) self-supervised learning can learn features even in the absence
of data augmentation and (3) SGD already becomes stable when initialized from
the student checkpoint with respect to batch orderings. Finally, we shed light
on an intriguing local property of the loss landscape: the process of feature
learning is strongly amplified if the student is initialized closely to the
teacher. This raises interesting questions about the nature of the landscape
that have remained unexplored so far.
- Abstract(参考訳): 本研究では,教師・学生学習のダイナミクスによって引き起こされる暗黙の規則化について検討する。
その効果を分離するために,教師を訓練するのではなく,教師をランダムに初期化する簡単な実験を述べる。
驚くべきことに, 学生をそのような無作為な教師に蒸留する場合, 結果モデルとその表現は, 既に非常に興味深い特性を有しており, 1) 蒸留した生徒は, 調査精度の面では, 教師よりも強い改善が観察されている。
2)学習表現は異なるタスク間で高い転送性を持つが、ランダム入力でトレーニングすると強く低下する。
3)学生検問所は、いわゆる宝くじを見つけるために十分であり、すなわち、完全なネットワークと同じ性能を持つ、識別可能でスパースなネットワークを含んでいる。
これらの観察は,機械学習におけるいくつかの重要な領域において興味深い結果をもたらす: 1) 自己蒸留は,(1) テキストの知識に頼らずに勾配力学に存在する暗黙の正規化に基づいてのみ機能し,(2) 自己教師型学習はデータ拡張がなくても特徴を学習でき,(3) SGD は,バッチ注文に関して学生チェックポイントから初期化されると既に安定している。
最後に、損失の風景の興味深い局所的性質に光を当てた: 機能学習のプロセスは、生徒が教師と密接に初期化されると強く増幅されます。
これは、これまで未調査のままだった風景の性質に関する興味深い疑問を提起する。
関連論文リスト
- Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer [5.731477362725785]
本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - L2T-DLN: Learning to Teach with Dynamic Loss Network [4.243592852049963]
既存の研究では、教師の反復モデル(1)は、学生モデルの現在の状態に基づいて損失関数を単に決定するだけである。
本稿では,まず,記憶単位を持つ教師モデルを設計し,時間的タスクとして損失調整を定式化する。
そして、ダイナミックな損失ネットワークにより、損失の状態を利用して、教師と生徒モデルとの相互作用を強化する教師の学習を支援する。
論文 参考訳(メタデータ) (2023-10-30T07:21:40Z) - UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文 参考訳(メタデータ) (2022-12-21T11:43:20Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Student-Teacher Learning from Clean Inputs to Noisy Inputs [20.428469418957544]
特徴に基づく教員学習は,教員ネットワークから学生ネットワークに知識を移すことで実証的に成功している。
本手法はディープリニアネットワークを用いて理論的に解析し,非線形ネットワークを用いて実験的に解析する。
論文 参考訳(メタデータ) (2021-03-13T02:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。