論文の概要: Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression
- arxiv url: http://arxiv.org/abs/2310.00369v2
- Date: Tue, 10 Oct 2023 09:12:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 02:25:53.245853
- Title: Distilling Inductive Bias: Knowledge Distillation Beyond Model
Compression
- Title(参考訳): インダクティブバイアスの蒸留 : モデル圧縮以上の知識蒸留
- Authors: Gousia Habib, Tausifa Jan Saleem, Brejesh Lall
- Abstract要約: ViT(Vision Transformers)は、視覚領域とテキスト領域にまたがる統一された情報処理の可能性を提供する。
補足型軽量教師モデルからの帰納バイアスを蒸留する,革新的なアンサンブル型蒸留手法を提案する。
提案するフレームワークでは,前もってロジットの事前計算と保存も行なっており,基本的にはモデルの非正規化予測である。
- 参考スコア(独自算出の注目度): 6.508088032296086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of computer vision, Vision Transformers (ViTs)
offer the tantalizing prospect of unified information processing across visual
and textual domains. But due to the lack of inherent inductive biases in ViTs,
they require enormous amount of data for training. To make their applications
practical, we introduce an innovative ensemble-based distillation approach
distilling inductive bias from complementary lightweight teacher models. Prior
systems relied solely on convolution-based teaching. However, this method
incorporates an ensemble of light teachers with different architectural
tendencies, such as convolution and involution, to instruct the student
transformer jointly. Because of these unique inductive biases, instructors can
accumulate a wide range of knowledge, even from readily identifiable stored
datasets, which leads to enhanced student performance. Our proposed framework
also involves precomputing and storing logits in advance, essentially the
unnormalized predictions of the model. This optimization can accelerate the
distillation process by eliminating the need for repeated forward passes during
knowledge distillation, significantly reducing the computational burden and
enhancing efficiency.
- Abstract(参考訳): コンピュータビジョンの急速な発展に伴い、ヴィジュアルトランスフォーマー(vits)は視覚領域とテキスト領域をまたいだ統一的な情報処理を実現する。
しかし、ViTに固有の誘導バイアスがないため、トレーニングには膨大な量のデータが必要である。
そこで本研究では, 共用軽量教師モデルからの帰納バイアスを蒸留する, アンサンブルに基づく蒸留手法を提案する。
以前の制度は畳み込みに基づく教育のみに頼っていた。
しかし, この手法では, コンボリューションやインボリューションなど, 異なる建築的傾向を持つ軽量教師のアンサンブルが組み込まれ, 学生トランスフォーマーを共同で指導する。
このような独特な帰納バイアスのため、インストラクターは容易に識別可能な記憶されたデータセットからでも幅広い知識を蓄積することができ、学生のパフォーマンスが向上する。
提案フレームワークでは,事前計算と事前保存,基本的にモデルの非正規化予測も含んでいる。
この最適化は、知識蒸留中の繰り返し前方通過の必要性をなくし、計算負荷を大幅に削減し、効率を向上させることにより、蒸留プロセスを加速することができる。
関連論文リスト
- Faithful Label-free Knowledge Distillation [8.572967695281054]
本稿では,中期教師(TinTeM)と呼ばれるラベルフリーな知識蒸留手法を提案する。
より忠実な学生を生み出し、教師ネットワークの振る舞いをよりよく再現し、モデルの堅牢性、一般化可能性、アウト・オブ・ディストリビューション検出などをテストする。
論文 参考訳(メタデータ) (2024-11-22T01:48:44Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Distillation from Heterogeneous Models for Top-K Recommendation [43.83625440616829]
HetCompは、教師の軌跡から一連の知識を伝達することで、学生モデルをガイドするフレームワークである。
HetCompは学生モデルの蒸留品質と一般化を著しく改善する。
論文 参考訳(メタデータ) (2023-03-02T10:23:50Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Distilling Knowledge from Self-Supervised Teacher by Embedding Graph
Alignment [52.704331909850026]
我々は、自己指導型事前学習モデルから他の学生ネットワークへ知識を伝達するための新しい知識蒸留フレームワークを定式化した。
自己教師型学習におけるインスタンス識別の精神に触発され,特徴埋め込み空間におけるグラフ定式化によるインスタンスとインスタンスの関係をモデル化する。
蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。
論文 参考訳(メタデータ) (2022-11-23T19:27:48Z) - Efficient Vision Transformers via Fine-Grained Manifold Distillation [96.50513363752836]
視覚変換器のアーキテクチャは多くのコンピュータビジョンタスクで異常な性能を示した。
ネットワーク性能は向上するが、トランスフォーマーはより多くの計算資源を必要とすることが多い。
本稿では,教師のトランスフォーマーから,画像と分割パッチの関係を通して有用な情報を抽出することを提案する。
論文 参考訳(メタデータ) (2021-07-03T08:28:34Z) - Co-advise: Cross Inductive Bias Distillation [39.61426495884721]
視覚変換器を訓練するための新しい蒸留法を提案する。
我々は,学生トランスフォーマーを共同で助言するために,異なるアーキテクチャ的帰納バイアスを持つ軽量な教員を紹介した。
私たちのビジョントランスフォーマー(CivT)は、ImageNetで同じアーキテクチャの以前のトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2021-06-23T13:19:59Z) - Learning by Distillation: A Self-Supervised Learning Framework for
Optical Flow Estimation [71.76008290101214]
DistillFlowは光の流れを学ぶための知識蒸留手法である。
KITTIとSintelの両方のデータセット上で、最先端の教師なし学習性能を実現する。
我々のモデルは、KITTI 2015ベンチマークにおけるすべての単分子的手法の中で、第1位にランクされ、Sintel Finalベンチマークで発表されたすべてのメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-06-08T09:13:34Z) - Generative Adversarial Simulator [2.3986080077861787]
強化学習における知識蒸留へのシミュレータフリーアプローチを提案する。
重要な課題は、学生に与えられた行動に対応する事例の多様さを学習させることである。
これは教師と学生の政策の間のシミュレータフリーな知識蒸留の初めての実演である。
論文 参考訳(メタデータ) (2020-11-23T15:31:12Z) - Knowledge Distillation Meets Self-Supervision [109.6400639148393]
知識蒸留では、教師ネットワークから「暗黒の知識」を抽出し、学生ネットワークの学習を指導する。
一見異なる自己超越的なタスクが、単純だが強力なソリューションとして機能することを示します。
これらの自己超越信号の類似性を補助的タスクとして活用することにより、隠された情報を教師から生徒に効果的に転送することができる。
論文 参考訳(メタデータ) (2020-06-12T12:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。