論文の概要: Teacher Guided Training: An Efficient Framework for Knowledge Transfer
- arxiv url: http://arxiv.org/abs/2208.06825v1
- Date: Sun, 14 Aug 2022 10:33:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 14:21:30.336647
- Title: Teacher Guided Training: An Efficient Framework for Knowledge Transfer
- Title(参考訳): 教師指導:知識伝達のための効果的なフレームワーク
- Authors: Manzil Zaheer, Ankit Singh Rawat, Seungyeon Kim, Chong You, Himanshu
Jain, Andreas Veit, Rob Fergus, Sanjiv Kumar
- Abstract要約: 高品質なコンパクトモデルを訓練するための教師誘導訓練(TGT)フレームワークを提案する。
TGTは、教師が基礎となるデータドメインの優れた表現を取得したという事実を利用する。
TGTは複数の画像分類ベンチマークやテキスト分類や検索タスクの精度を向上させることができる。
- 参考スコア(独自算出の注目度): 86.6784627427194
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The remarkable performance gains realized by large pretrained models, e.g.,
GPT-3, hinge on the massive amounts of data they are exposed to during
training. Analogously, distilling such large models to compact models for
efficient deployment also necessitates a large amount of (labeled or unlabeled)
training data. In this paper, we propose the teacher-guided training (TGT)
framework for training a high-quality compact model that leverages the
knowledge acquired by pretrained generative models, while obviating the need to
go through a large volume of data. TGT exploits the fact that the teacher has
acquired a good representation of the underlying data domain, which typically
corresponds to a much lower dimensional manifold than the input space.
Furthermore, we can use the teacher to explore input space more efficiently
through sampling or gradient-based methods; thus, making TGT especially
attractive for limited data or long-tail settings. We formally capture this
benefit of proposed data-domain exploration in our generalization bounds. We
find that TGT can improve accuracy on several image classification benchmarks
as well as a range of text classification and retrieval tasks.
- Abstract(参考訳): GPT-3のような事前訓練済みの大型モデルでは、トレーニング中に露出する大量のデータにヒンジが組み込まれている。
同様に、このような大規模なモデルを効率的な展開のためにコンパクトなモデルに蒸留するには、大量の(ラベル付きまたはラベルなし)トレーニングデータが必要である。
本稿では,事前学習された生成モデルによって得られる知識を活用し,大量のデータを必要とすることなく,高品質なコンパクトモデルの訓練を行うための教師指導訓練(tgt)フレームワークを提案する。
TGTは、教師が基礎となるデータ領域のよい表現を得たという事実を利用しており、通常は入力空間よりもはるかに低い次元多様体に対応する。
さらに,教師は,サンプリングや勾配に基づく手法により,より効率的に入力空間を探索できるため,限られたデータやロングテール設定においてtgtが特に魅力的になる。
提案するデータドメイン探索のメリットを,私たちの一般化範囲で正式に捉えます。
我々は,TGTが複数の画像分類ベンチマークの精度を向上し,テキスト分類や検索タスクの幅を拡大できることを見出した。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - Smaller Language Models are capable of selecting Instruction-Tuning
Training Data for Larger Language Models [39.65879784788677]
サンプルの学習率に基づいて,新しい学習データ選択を導入する。
現在の言語モデルには、高品質なトレーニングデータを自律的に選択する能力がある、と我々は主張する。
本稿では,データ選択のトレーニングに新たなアプローチを導入し,より効率的な代替手段を示す。
論文 参考訳(メタデータ) (2024-02-16T03:39:37Z) - Bad Students Make Great Teachers: Active Learning Accelerates Large-Scale Visual Understanding [9.112203072394648]
パワーロースケーリングは、均一サンプリングによる大規模トレーニングが違法に遅いことを示している。
アクティブな学習手法は、最も関係のある事例に基づいて学習を優先順位付けすることで、データの効率を向上させることを目的としている。
論文 参考訳(メタデータ) (2023-12-08T19:26:13Z) - A Simple and Efficient Baseline for Data Attribution on Images [107.12337511216228]
現在の最先端のアプローチでは、モデル予測を正確に評価するために、最大30万のモデルの大規模なアンサンブルが必要となる。
本研究では、自己教師付き学習によって事前訓練されたバックボーンの特徴空間を利用して、データ帰属を行うミニマリストベースラインに焦点を当てる。
提案手法はモデルに依存しず,大規模データセットに容易にスケールできる。
論文 参考訳(メタデータ) (2023-11-03T17:29:46Z) - CHALLENGER: Training with Attribution Maps [63.736435657236505]
ニューラルネットワークのトレーニングに属性マップを利用すると、モデルの正規化が向上し、性能が向上することを示す。
特に、我々の汎用的なドメインに依存しないアプローチは、ビジョン、自然言語処理、時系列タスクにおける最先端の結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-05-30T13:34:46Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Learning to Augment for Data-Scarce Domain BERT Knowledge Distillation [55.34995029082051]
本稿では,データスカース領域BERT知識蒸留のための拡張学習法を提案する。
提案手法が4つの異なるタスクにおける最先端のベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2021-01-20T13:07:39Z) - Improving Semantic Segmentation via Self-Training [75.07114899941095]
半教師付きアプローチ,特に自己学習パラダイムを用いて,最先端の成果を得ることができることを示す。
まず、ラベル付きデータに基づいて教師モデルを訓練し、次にラベルなしデータの大規模なセット上で擬似ラベルを生成する。
私たちの堅牢なトレーニングフレームワークは、人名と擬似ラベルを共同で消化し、Cityscapes、CamVid、KITTIデータセット上で最高のパフォーマンスを達成することができます。
論文 参考訳(メタデータ) (2020-04-30T17:09:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。