論文の概要: Random Teachers are Good Teachers
- arxiv url: http://arxiv.org/abs/2302.12091v2
- Date: Mon, 19 Jun 2023 12:49:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-22 03:29:21.401880
- Title: Random Teachers are Good Teachers
- Title(参考訳): ランダムな教師は良い教師です
- Authors: Felix Sarnthein, Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
- Abstract要約: 自己蒸留における教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。
このような無作為な教師に学生を蒸留する際には,その教師に対して高い精度で蒸留した生徒の強い改善を観察する。
- 参考スコア(独自算出の注目度): 19.74244993871716
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we investigate the implicit regularization induced by
teacher-student learning dynamics in self-distillation. To isolate its effect,
we describe a simple experiment where we consider teachers at random
initialization instead of trained teachers. Surprisingly, when distilling a
student into such a random teacher, we observe that the resulting model and its
representations already possess very interesting characteristics; (1) we
observe a strong improvement of the distilled student over its teacher in terms
of probing accuracy. (2) The learned representations are data-dependent and
transferable between different tasks but deteriorate strongly if trained on
random inputs. (3) The student checkpoint contains sparse subnetworks,
so-called lottery tickets, and lies on the border of linear basins in the
supervised loss landscape. These observations have interesting consequences for
several important areas in machine learning: (1) Self-distillation can work
solely based on the implicit regularization present in the gradient dynamics
without relying on any dark knowledge, (2) self-supervised learning can learn
features even in the absence of data augmentation and (3) training dynamics
during the early phase of supervised training do not necessarily require label
information. Finally, we shed light on an intriguing local property of the loss
landscape: the process of feature learning is strongly amplified if the student
is initialized closely to the teacher. These results raise interesting
questions about the nature of the landscape that have remained unexplored so
far. Code is available at https://github.com/safelix/dinopl.
- Abstract(参考訳): 本研究では,教師-学生の自己蒸留における学習ダイナミクスによる暗黙の正規化について検討する。
その効果を分離するために,教師を訓練教師ではなくランダムに初期化して考える簡単な実験について述べる。
驚くべきことに, 学生をそのような無作為な教師に蒸留する場合, 結果モデルとその表現は, 既に非常に興味深い特性を有しており, 1) 蒸留した生徒は, 調査精度の面では, 教師よりも強い改善が観察されている。
2) 学習した表現はデータに依存し, 異なるタスク間で伝達可能であるが, ランダムな入力で学習した場合, 強く劣化する。
3)学生検問所は,細かなサブネットワーク,いわゆる抽選券を含み,教師付きロスランドスケープにおける線形盆地の境界に位置する。
これらの観察は、機械学習におけるいくつかの重要な領域において興味深い結果をもたらす: 1) 暗黒知識に頼らずに勾配力学に存在する暗黙の正規化にのみ依存して機能し、(2) 自己教師型学習は、データ強化がなくても特徴を学習し、(3) 教師付きトレーニングの初期段階のトレーニングダイナミクスは、必ずしもラベル情報を必要としない。
最後に、損失の風景の興味深い局所的性質に光を当てた: 機能学習のプロセスは、生徒が教師と密接に初期化されると強く増幅されます。
これらの結果は、これまで解明されていない景観の性質に関する興味深い疑問を提起している。
コードはhttps://github.com/safelix/dinoplで入手できる。
関連論文リスト
- Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。
この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。
スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文 参考訳(メタデータ) (2024-10-07T19:49:24Z) - Learn to Teach: Improve Sample Efficiency in Teacher-student Learning
for Sim-to-Real Transfer [5.731477362725785]
本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。
単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
論文 参考訳(メタデータ) (2024-02-09T21:16:43Z) - YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。
モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。
実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文 参考訳(メタデータ) (2024-01-28T14:32:15Z) - L2T-DLN: Learning to Teach with Dynamic Loss Network [4.243592852049963]
既存の研究では、教師の反復モデル(1)は、学生モデルの現在の状態に基づいて損失関数を単に決定するだけである。
本稿では,まず,記憶単位を持つ教師モデルを設計し,時間的タスクとして損失調整を定式化する。
そして、ダイナミックな損失ネットワークにより、損失の状態を利用して、教師と生徒モデルとの相互作用を強化する教師の学習を支援する。
論文 参考訳(メタデータ) (2023-10-30T07:21:40Z) - UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。
それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。
これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。
我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文 参考訳(メタデータ) (2022-12-21T11:43:20Z) - Distantly-Supervised Named Entity Recognition with Adaptive Teacher
Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。
本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。
微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文 参考訳(メタデータ) (2022-12-13T12:14:09Z) - Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。
知識蒸留は教師から知識を抽出し、対象モデルと統合する。
教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文 参考訳(メタデータ) (2022-05-04T06:49:47Z) - Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。
本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。
本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文 参考訳(メタデータ) (2022-04-26T04:43:57Z) - Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。
学生が教師に合わない理由として,最適化の難しさがあげられる。
論文 参考訳(メタデータ) (2021-06-10T17:44:02Z) - Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。
この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文 参考訳(メタデータ) (2021-03-31T06:52:20Z) - Student-Teacher Learning from Clean Inputs to Noisy Inputs [20.428469418957544]
特徴に基づく教員学習は,教員ネットワークから学生ネットワークに知識を移すことで実証的に成功している。
本手法はディープリニアネットワークを用いて理論的に解析し,非線形ネットワークを用いて実験的に解析する。
論文 参考訳(メタデータ) (2021-03-13T02:29:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。