Fugu-MT 論文翻訳(概要): Random Teachers are Good Teachers

論文の概要: Random Teachers are Good Teachers

arxiv url: http://arxiv.org/abs/2302.12091v1
Date: Thu, 23 Feb 2023 15:26:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-24 14:50:13.249353
Title: Random Teachers are Good Teachers
Title（参考訳）: ランダムな教師は良い教師です
Authors: Felix Sarnthein, Gregor Bachmann, Sotiris Anagnostidis, Thomas Hofmann
Abstract要約: 教師-学生の学習力学によって引き起こされる暗黙の正規化について検討する。このような無作為な教師に学生を蒸留する際には,その教師に対する生徒の強い改善を,確率的精度で観察する。学生が教師と密接な関係にある場合,特徴学習のプロセスは強く増幅される。
参考スコア（独自算出の注目度）: 19.74244993871716
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this work, we investigate the implicit regularization induced by teacher-student learning dynamics. To isolate its effect, we describe a simple experiment where instead of trained teachers, we consider teachers at random initialization. Surprisingly, when distilling a student into such a random teacher, we observe that the resulting model and its representations already possess very interesting characteristics; (1) we observe a strong improvement of the distilled student over its teacher in terms of probing accuracy. (2) The learnt representations are highly transferable between different tasks but deteriorate strongly if trained on random inputs. (3) The student checkpoint suffices to discover so-called lottery tickets, i.e. it contains identifiable, sparse networks that are as performant as the full network. These observations have interesting consequences for several important areas in machine learning: (1) Self-distillation can work solely based on the implicit regularization present in the gradient dynamics without relying on any \textit{dark knowledge}, (2) self-supervised learning can learn features even in the absence of data augmentation and (3) SGD already becomes stable when initialized from the student checkpoint with respect to batch orderings. Finally, we shed light on an intriguing local property of the loss landscape: the process of feature learning is strongly amplified if the student is initialized closely to the teacher. This raises interesting questions about the nature of the landscape that have remained unexplored so far.
Abstract（参考訳）: 本研究では,教師・学生学習のダイナミクスによって引き起こされる暗黙の規則化について検討する。その効果を分離するために,教師を訓練するのではなく,教師をランダムに初期化する簡単な実験を述べる。驚くべきことに, 学生をそのような無作為な教師に蒸留する場合, 結果モデルとその表現は, 既に非常に興味深い特性を有しており, 1) 蒸留した生徒は, 調査精度の面では, 教師よりも強い改善が観察されている。 2)学習表現は異なるタスク間で高い転送性を持つが、ランダム入力でトレーニングすると強く低下する。 3)学生検問所は、いわゆる宝くじを見つけるために十分であり、すなわち、完全なネットワークと同じ性能を持つ、識別可能でスパースなネットワークを含んでいる。これらの観察は,機械学習におけるいくつかの重要な領域において興味深い結果をもたらす: 1) 自己蒸留は,(1) テキストの知識に頼らずに勾配力学に存在する暗黙の正規化に基づいてのみ機能し,(2) 自己教師型学習はデータ拡張がなくても特徴を学習でき,(3) SGD は,バッチ注文に関して学生チェックポイントから初期化されると既に安定している。最後に、損失の風景の興味深い局所的性質に光を当てた: 機能学習のプロセスは、生徒が教師と密接に初期化されると強く増幅されます。これは、これまで未調査のままだった風景の性質に関する興味深い疑問を提起する。

関連論文リスト

Learning to Reason: Temporal Saliency Distillation for Interpretable Knowledge Transfer [2.8218955000848287]
知識蒸留は、教師と呼ばれるより大きなネットワークから学生と呼ばれるより小さなネットワークに知識を伝達することで、モデル圧縮に有効であることが証明されている。時系列における現在の知識蒸留は、主に、もともとコンピュータビジョンタスクのために開発されたロジットと特徴整合技術に基づいている。本稿では,教師の正しい推論だけでなく,教師の正しい推論を伝達するために,従来のロジット伝達を拡張して解釈可能な知識の伝達を提案する。
論文参考訳（メタデータ） (2026-01-07T07:24:26Z)
Distilling Realizable Students from Unrealizable Teachers [9.968083244726941]
特権情報に基づく政策蒸留について検討し, 一部観察のみの学生政策は, フルステートアクセスの教師から学ぶ必要がある。既存のアプローチでは、教師が実現可能ではあるが準最適のデモを作成するように変更するか、または学生に頼って、欠落した情報を独立して調査する。 i) 学生が教師に補正を問い合わせるべき時期を適応的に決定する模倣学習手法と, (ii) 効率的な探索のためにトレーニングを初期化する場所を選択する強化学習手法を導入する。
論文参考訳（メタデータ） (2025-05-14T16:45:51Z)
Progressive distillation induces an implicit curriculum [44.528775476168654]
より良い教師は必ずしも良い生徒を産むとは限らない。この原理を実証的に検証した1つの変種はプログレッシブ蒸留であり、そこで学生は教師の連続した中間チェックポイントから学習する。スパースパリティをサンドボックスとして使用することにより、暗黙のカリキュラムをプログレッシブ蒸留によって学生の学習を加速させる1つのメカニズムとして認識する。
論文参考訳（メタデータ） (2024-10-07T19:49:24Z)
Learn to Teach: Improve Sample Efficiency in Teacher-student Learning for Sim-to-Real Transfer [5.731477362725785]
本稿では,教師が収集した学習体験をリサイクルする学習学習フレームワークであるLearning to Teach (L2T)を提案する。単ループアルゴリズムは、強化学習と逆強化学習の両方の文脈で教師と学生のエージェントを訓練できることを示す。
論文参考訳（メタデータ） (2024-02-09T21:16:43Z)
YODA: Teacher-Student Progressive Learning for Language Models [82.0172215948963]
本稿では,教師が指導するプログレッシブ・ラーニング・フレームワークであるYodaを紹介する。モデルファインチューニングの有効性を向上させるために,教師の教育過程をエミュレートする。実験の結果, YODAのデータによるLLaMA2のトレーニングにより, SFTは大幅に向上した。
論文参考訳（メタデータ） (2024-01-28T14:32:15Z)
L2T-DLN: Learning to Teach with Dynamic Loss Network [4.243592852049963]
既存の研究では、教師の反復モデル(1)は、学生モデルの現在の状態に基づいて損失関数を単に決定するだけである。本稿では,まず,記憶単位を持つ教師モデルを設計し,時間的タスクとして損失調整を定式化する。そして、ダイナミックな損失ネットワークにより、損失の状態を利用して、教師と生徒モデルとの相互作用を強化する教師の学習を支援する。
論文参考訳（メタデータ） (2023-10-30T07:21:40Z)
UNIKD: UNcertainty-filtered Incremental Knowledge Distillation for Neural Implicit Representation [48.49860868061573]
最近の神経暗黙表現(NIR)は、3次元再構成と新しいビュー合成のタスクにおいて大きな成功を収めている。それらは、異なるカメラビューからのシーンのイメージを、一度のトレーニングで利用できるようにする必要がある。これは特に大規模なシーンと限られたデータストレージを持つシナリオでは高価である。我々は、破滅的な問題を緩和するために、学生-教師の枠組みを設計する。
論文参考訳（メタデータ） (2022-12-21T11:43:20Z)
Distantly-Supervised Named Entity Recognition with Adaptive Teacher Learning and Fine-grained Student Ensemble [56.705249154629264]
NERモデルの堅牢性を改善するために,自己学習型教員学生フレームワークを提案する。本稿では,2つの教員ネットワークからなる適応型教員学習を提案する。微粒な学生アンサンブルは、教師モデルの各フラグメントを、生徒の対応するフラグメントの時間移動平均で更新し、各モデルフラグメントのノイズに対する一貫した予測を強化する。
論文参考訳（メタデータ） (2022-12-13T12:14:09Z)
Iterative Teaching by Data Hallucination [37.246902903546896]
本稿では,教師が学習者の状況に基づいた事例を逐次提示する反復型機械教育の課題について考察する。本稿では,教師がラベルや学習者の状況,目標概念に基づいて,知的に入力データを生成することのできるデータ幻覚教育(DHT)を提案する。
論文参考訳（メタデータ） (2022-10-31T16:48:47Z)
Generalized Knowledge Distillation via Relationship Matching [53.69235109551099]
よく訓練されたディープニューラルネットワーク(いわゆる「教師」)の知識は、同様のタスクを学ぶのに有用である。知識蒸留は教師から知識を抽出し、対象モデルと統合する。教師に学生と同じ仕事をさせる代わりに、一般のラベル空間から訓練を受けた教師の知識を借りる。
論文参考訳（メタデータ） (2022-05-04T06:49:47Z)
Know Thy Student: Interactive Learning with Gaussian Processes [11.641731210416102]
そこで本研究では,ガウス過程を用いた簡単な診断アルゴリズムを提案する。本研究は,教師が生徒に実演を行い,余分な軌跡の送出を避けるためのオフライン強化学習環境である。本実験は,対話型教師の助けを借りて,学生がより効率的に学習できる方法を示す。
論文参考訳（メタデータ） (2022-04-26T04:43:57Z)
Does Knowledge Distillation Really Work? [106.38447017262183]
知識蒸留は学生の一般化を改善することができるが、一般的に理解されているようには機能しない。学生が教師に合わない理由として,最適化の難しさがあげられる。
論文参考訳（メタデータ） (2021-06-10T17:44:02Z)
Fixing the Teacher-Student Knowledge Discrepancy in Distillation [72.4354883997316]
本稿では,教師の知識を学生とより整合させる,新たな学生依存型蒸留法である知識一貫型蒸留を提案する。この手法は非常に柔軟で,他の最先端手法と容易に組み合わせることができる。
論文参考訳（メタデータ） (2021-03-31T06:52:20Z)
Student-Teacher Learning from Clean Inputs to Noisy Inputs [20.428469418957544]
特徴に基づく教員学習は,教員ネットワークから学生ネットワークに知識を移すことで実証的に成功している。本手法はディープリニアネットワークを用いて理論的に解析し,非線形ネットワークを用いて実験的に解析する。
論文参考訳（メタデータ） (2021-03-13T02:29:35Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。