論文の概要: Distilling Double Descent
- arxiv url: http://arxiv.org/abs/2102.06849v1
- Date: Sat, 13 Feb 2021 02:26:48 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-16 16:14:49.229193
- Title: Distilling Double Descent
- Title(参考訳): 蒸留二重降下
- Authors: Andrew Cotter, Aditya Krishna Menon, Harikrishna Narasimhan, Ankit
Singh Rawat, Sashank J. Reddi, Yichen Zhou
- Abstract要約: 蒸留とは、別の「教師」モデルでラベル付けされた例に基づいた「学生」モデルを訓練する技法である。
教師モデルが非常にパラメータ化されすぎている場合であっても、非常に大きな保持されていないラベル付きデータセットを使用することで、より"伝統的な"アプローチを上回るモデルが生まれます。
- 参考スコア(独自算出の注目度): 65.85258126760502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distillation is the technique of training a "student" model based on examples
that are labeled by a separate "teacher" model, which itself is trained on a
labeled dataset. The most common explanations for why distillation "works" are
predicated on the assumption that student is provided with \emph{soft} labels,
\eg probabilities or confidences, from the teacher model. In this work, we
show, that, even when the teacher model is highly overparameterized, and
provides \emph{hard} labels, using a very large held-out unlabeled dataset to
train the student model can result in a model that outperforms more
"traditional" approaches.
Our explanation for this phenomenon is based on recent work on "double
descent". It has been observed that, once a model's complexity roughly exceeds
the amount required to memorize the training data, increasing the complexity
\emph{further} can, counterintuitively, result in \emph{better} generalization.
Researchers have identified several settings in which it takes place, while
others have made various attempts to explain it (thus far, with only partial
success). In contrast, we avoid these questions, and instead seek to
\emph{exploit} this phenomenon by demonstrating that a highly-overparameterized
teacher can avoid overfitting via double descent, while a student trained on a
larger independent dataset labeled by this teacher will avoid overfitting due
to the size of its training set.
- Abstract(参考訳): 蒸留は、別個の「教師」モデルによってラベル付けされた例に基づいて、それ自体がラベル付きデータセットでトレーニングされる「スチューデント」モデルを訓練する技法である。
蒸留「仕事」の理由の最も一般的な説明は、教師モデルから学生に \emph{soft} ラベル、 \eg 確率または自信が提供されるという仮定を前提としています。
本研究では,教師モデルが過度にパラメータ化されている場合であっても,学生モデルのトレーニングに非常に大きなホールドアウトラベルのないデータセットを使用することで,従来型アプローチよりも優れたモデルが実現可能であることを示す。
この現象の説明は「二重降下」に関する最近の研究に基づいている。
モデルの複雑さがトレーニングデータの記憶に必要な量を大幅に上回ると、その複雑さが直感的に増すと、 \emph{better} が一般化されることが観察されている。
研究者たちは、それが起きているいくつかの設定を特定し、それを説明するためのさまざまな試みを行った(今のところ、部分的には成功していない)。
対照的に、我々はこれらの質問を避けて、高度に過小評価された教師が二重降下によって過剰フィッティングを回避できることを示すことによって、この現象を<emph{exploit} しようとする一方で、この教師によってラベル付けされたより大きな独立データセットで訓練された生徒は、トレーニングセットの大きさによって過大フィッティングを避ける。
関連論文リスト
- UnLearning from Experience to Avoid Spurious Correlations [3.283369870504872]
我々は,突発的相関の問題に対処する新しいアプローチを提案する: 経験から学ぶ(ULE)
本手法は,生徒モデルと教師モデルという,並列に訓練された2つの分類モデルを用いた。
提案手法は,Waterbirds,CelebA,Spawrious,UrbanCarsの各データセットに有効であることを示す。
論文 参考訳(メタデータ) (2024-09-04T15:06:44Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Enhancing Self-Training Methods [0.0]
半教師付き学習アプローチでは、ラベル付きデータの小さなセットとラベルなしデータの大きなセットをトレーニングする。
自己学習は「確認バイアス」の問題に悩まされる半教師型教師学生のアプローチである
論文 参考訳(メタデータ) (2023-01-18T03:56:17Z) - Weighted Distillation with Unlabeled Examples [15.825078347452024]
ラベルなし例による蒸留は、ラベル付きデータの量を制限する設定において、ディープニューラルネットワークをトレーニングするための一般的で強力な方法である。
本稿では, 蒸留訓練のパラダイムに合わせて, 学生の損失関数の再重み付けに基づいて, この問題に対処するための原則的アプローチを提案する。
論文 参考訳(メタデータ) (2022-10-13T04:08:56Z) - Revisiting Self-Distillation [50.29938732233947]
自己蒸留とは、大きなモデル(教師)からよりコンパクトなモデル(生徒)に「知識」を移す手順である。
いくつかの作品では、自給自足の生徒が保持されたデータで教師より優れているという逸話がある。
我々は、自己蒸留がより平坦なミニマムをもたらすことを示すための広範な実験を行い、その結果、より良い一般化をもたらす。
論文 参考訳(メタデータ) (2022-06-17T00:18:51Z) - Unified and Effective Ensemble Knowledge Distillation [92.67156911466397]
知識蒸留は、複数の教師モデルから知識を抽出し、それを1人の学生モデルにエンコードする。
既存の多くの手法は、ラベル付きデータのみに基づいて学生モデルを学習し、蒸留する。
本研究では,教師モデルのアンサンブルから,ラベル付きデータとラベルなしデータの両方から単一学生モデルを蒸留する,統一的で効果的なアンサンブル知識蒸留法を提案する。
論文 参考訳(メタデータ) (2022-04-01T16:15:39Z) - Understanding Robustness in Teacher-Student Setting: A New Perspective [42.746182547068265]
適応的な例は機械学習モデルで、有界な対向的摂動はモデルを誤解させ、任意に誤った予測をすることができる。
広範な研究は、逆例の存在を説明し、モデルのロバスト性を改善する方法を提供する。
我々の研究は、敵対的な事例に関する将来の探索を暗示し、原則化されたデータ拡張を通じてモデルロバスト性を高めることができる。
論文 参考訳(メタデータ) (2021-02-25T20:54:24Z) - Noisy Self-Knowledge Distillation for Text Summarization [83.49809205891496]
我々は, テキスト要約に自己知識蒸留を適用し, 最大習熟時の問題を緩和できると考えている。
学生要約モデルは,学習の正規化を支援するスムーズなラベルを生成する教師の指導によって訓練される。
筆者らは,3つのベンチマークを用いて,事前学習と非事前学習の両方のパフォーマンス向上を実証した。
論文 参考訳(メタデータ) (2020-09-15T12:53:09Z) - Data-Efficient Ranking Distillation for Image Retrieval [15.88955427198763]
近年のアプローチでは、より深く重いアーキテクチャからより小さなネットワークへ知識を伝達するために、知識蒸留を用いてこの問題に対処している。
本稿では,計量学習問題に対する知識蒸留について述べる。
従来の手法とは違って,提案手法では,教師モデルに対する限定的なクエリ,最終出力表現へのアクセスを伴うブラックボックス教師モデル,および第3に,基本トラストラベルのないオリジナルトレーニングデータのごく一部に対処する。
論文 参考訳(メタデータ) (2020-07-10T10:59:16Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。