論文の概要: Efficient Sub-structured Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2203.04825v1
- Date: Wed, 9 Mar 2022 15:56:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-10 14:21:19.672682
- Title: Efficient Sub-structured Knowledge Distillation
- Title(参考訳): 効率的な部分構造知識蒸留
- Authors: Wenye Lin, Yangming Li, Lemao Liu, Shuming Shi, Hai-tao Zheng
- Abstract要約: 定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的にトレーニングできるアプローチを提案する。
教師モデルから学生モデルへの知識の伝達は、出力空間全体ではなく、すべてのサブ構造上の予測を局所的に一致させることで行う。
- 参考スコア(独自算出の注目度): 52.5931565465661
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structured prediction models aim at solving a type of problem where the
output is a complex structure, rather than a single variable. Performing
knowledge distillation for such models is not trivial due to their
exponentially large output space. In this work, we propose an approach that is
much simpler in its formulation and far more efficient for training than
existing approaches. Specifically, we transfer the knowledge from a teacher
model to its student model by locally matching their predictions on all
sub-structures, instead of the whole output space. In this manner, we avoid
adopting some time-consuming techniques like dynamic programming (DP) for
decoding output structures, which permits parallel computation and makes the
training process even faster in practice. Besides, it encourages the student
model to better mimic the internal behavior of the teacher model. Experiments
on two structured prediction tasks demonstrate that our approach outperforms
previous methods and halves the time cost for one training epoch.
- Abstract(参考訳): 構造化予測モデルは、出力が単一の変数ではなく複雑な構造であるような問題を解くことを目指している。
そのようなモデルに対する知識蒸留を実行することは、指数的に大きな出力空間のため自明ではない。
本研究では,その定式化においてよりシンプルで,既存のアプローチよりもはるかに効率的なトレーニング手法を提案する。
具体的には,教師モデルから学生モデルへの知識の伝達を,出力空間全体ではなく,すべてのサブ構造上での予測を局所的に一致させることで行う。
この方法では、並列計算を可能にし、実際にトレーニングプロセスをさらに高速化する、出力構造をデコードするために動的プログラミング(dp)のような時間を要する技術を採用するのを避ける。
また、生徒モデルに対して、教師モデルの内部動作をよりよく模倣するよう促す。
2つの構造化予測タスクに関する実験は、我々のアプローチが以前の手法を上回っており、1つのトレーニング期間の時間コストを削減していることを示している。
関連論文リスト
- Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。
本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文 参考訳(メタデータ) (2024-02-07T17:07:41Z) - Manipulating Predictions over Discrete Inputs in Machine Teaching [43.914943603238996]
本稿では,個別領域における機械教育,特に教師の目標に基づいて学生モデルの予測を効率的に学習データを変更することに焦点を当てた。
本稿では,この課題を最適化問題として定式化し,反復探索アルゴリズムを提案する。
本アルゴリズムは,教師が生徒のモデルを改善するために誤予測を修正しようとする場合や,特定のサンプルを対象のクラスに不正に分類するために悪質な操作を行う場合において,有意義な数値的メリットを示す。
論文 参考訳(メタデータ) (2024-01-31T14:23:51Z) - DynaLay: An Introspective Approach to Dynamic Layer Selection for Deep
Networks [0.0]
textbfDynaLayは、各入力を処理するのに最適な層を適応的に選択するための意思決定エージェントを備えた代替アーキテクチャである。
DynaLayは推論中により複雑な入力を再評価し、パフォーマンスと効率の両方を最適化するために計算作業を調整する。
実験により,DynaLayは従来のディープモデルに匹敵する精度を達成し,計算要求を大幅に低減することを示した。
論文 参考訳(メタデータ) (2023-12-20T05:55:05Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - Efficient Prompting via Dynamic In-Context Learning [76.83516913735072]
ブラックボックスジェネリストモデルを用いた効率的なプロンプト法であるDynaICLを提案する。
DynaICLは入力複雑性と計算予算に応じてコンテキスト内の例を動的に割り当てる。
DynaICLは、各入力に同じテキスト内サンプルを割り当てる一般的な慣行と比較して、最大46%のトークン予算を節約している。
論文 参考訳(メタデータ) (2023-05-18T17:58:31Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Dense Unsupervised Learning for Video Segmentation [49.46930315961636]
ビデオオブジェクトセグメンテーション(VOS)のための教師なし学習のための新しいアプローチを提案する。
これまでの研究とは異なり、我々の定式化によって、完全に畳み込みの仕組みで、密集した特徴表現を直接学習することができる。
我々の手法は、トレーニングデータや計算能力が大幅に少ないにもかかわらず、以前の作業のセグメンテーション精度を超える。
論文 参考訳(メタデータ) (2021-11-11T15:15:11Z) - A Practical Incremental Method to Train Deep CTR Models [37.54660958085938]
本稿では,3つの分離モジュールからなる深部CTRモデルを訓練するための実用的なインクリメンタル手法を提案する。
提案手法は従来のバッチモード学習と同等の性能を達成でき,訓練効率も向上する。
論文 参考訳(メタデータ) (2020-09-04T12:35:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。