論文の概要: Progressive Knowledge Distillation: Building Ensembles for Efficient
Inference
- arxiv url: http://arxiv.org/abs/2302.10093v1
- Date: Mon, 20 Feb 2023 16:57:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 14:46:27.033361
- Title: Progressive Knowledge Distillation: Building Ensembles for Efficient
Inference
- Title(参考訳): プログレッシブ知識蒸留:効率的な推論のためのアンサンブルの構築
- Authors: Don Kurian Dennis, Abhishek Shetty, Anish Sevekari, Kazuhito Koishida,
Virginia Smith
- Abstract要約: 事前学習した教師モデルを、より小さく、低推論コストの学生モデルのアンサンブルに分解する。
結果として得られるアンサンブルは、精度と推論コストを柔軟に調整することができる。
標準画像,音声,センサデータセット間で事前学習したモデルを分解することで,algAの有効性を示す。
- 参考スコア(独自算出の注目度): 33.00752767130585
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of progressive distillation: Given a large, pre-trained
teacher model $g$, we seek to decompose the model into an ensemble of smaller,
low-inference cost student models $f_i$. The resulting ensemble allows for
flexibly tuning accuracy vs. inference cost, which is useful for a number of
applications in on-device inference. The method we propose, B-DISTIL, relies on
an algorithmic procedure that uses function composition over intermediate
activations to construct expressive ensembles with similar performance as $g$,
but with much smaller student models. We demonstrate the effectiveness of \algA
by decomposing pretrained models across standard image, speech, and sensor
datasets. We also provide theoretical guarantees for our method in terms of
convergence and generalization.
- Abstract(参考訳): 大きく、事前訓練された教師モデル$g$が与えられた場合、我々はモデルをより小さく、低会議コストの学生モデル$f_i$のアンサンブルに分解することを目指している。
結果として得られるアンサンブルは、デバイス上の推論における多くのアプリケーションに有用な精度と推論コストを柔軟に調整することができる。
提案手法であるb-distilは,中間アクティベーション上の関数合成を用いて,$g$と同等の性能を持つ表現型アンサンブルを構築するアルゴリズム手法に依拠している。
標準画像,音声,センサデータセット間で事前学習したモデルを分解することで, \algAの有効性を示す。
また、収束と一般化の観点から、理論的な保証を提供する。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active
Learning [6.704927458661697]
期待されている損失削減(ELR)は、分類誤差の低減と、同じフレームワークに適合するより一般的なコストのベイズ推定に焦点を当てている。
本研究では,平均値スコア(BEMPS)のベイズ推定を行い,厳密なスコアの増加を推定する。
我々は,BEMPSが頑健な獲得関数とよく校正された分類器を出力し,他の試験よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-12-15T11:02:17Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models
Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Adaptive Estimation and Uniform Confidence Bands for Nonparametric
Structural Functions and Elasticities [2.07706336594149]
非パラメトリックモデルにおいて、最適推定と推論のための2つのデータ駆動手法を導入する。
我々は、国際貿易の独占的競争モデルにおいて、ファーム輸出の集中的マージンの弾力性を推定する。
論文 参考訳(メタデータ) (2021-07-25T18:46:33Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。