論文の概要: Progressive Ensemble Distillation: Building Ensembles for Efficient
Inference
- arxiv url: http://arxiv.org/abs/2302.10093v2
- Date: Thu, 9 Nov 2023 18:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-10 18:50:46.193066
- Title: Progressive Ensemble Distillation: Building Ensembles for Efficient
Inference
- Title(参考訳): プログレッシブアンサンブル蒸留:効率的な推論のためのアンサンブルの構築
- Authors: Don Kurian Dennis, Abhishek Shetty, Anish Sevekari, Kazuhito Koishida,
Virginia Smith
- Abstract要約: 事前学習した教師モデルをより小さく、低推論コストの学生モデルに分解する。
結果として得られるアンサンブルは、実行時の推論コストに対して、柔軟に精度を調整できる。
標準画像,音声,センサデータセット間で事前学習したモデルを分解することで,B-DISTILの有効性を示す。
- 参考スコア(独自算出の注目度): 32.60057845566007
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of progressive ensemble distillation: Given a large,
pretrained teacher model $g$, we seek to decompose the model into smaller,
low-inference cost student models $f_i$, such that progressively evaluating
additional models in this ensemble leads to improved predictions. The resulting
ensemble allows for flexibly tuning accuracy vs. inference cost at runtime,
which is useful for a number of applications in on-device inference. The method
we propose, B-DISTIL , relies on an algorithmic procedure that uses function
composition over intermediate activations to construct expressive ensembles
with similar performance as $g$ , but with smaller student models. We
demonstrate the effectiveness of B-DISTIL by decomposing pretrained models
across standard image, speech, and sensor datasets. We also provide theoretical
guarantees in terms of convergence and generalization.
- Abstract(参考訳): 大規模で事前訓練された教師モデル$g$を前提として、モデルをより小さく低推論コストの学生モデル$f_i$に分解し、このアンサンブルに付加的なモデルを段階的に評価することで予測を改善する。
結果として得られるアンサンブルにより、実行時の精度と推論コストを柔軟に調整することが可能となり、オンデバイス推論における多くのアプリケーションに有用である。
提案手法であるb-distil は,中間アクティベーション上の関数合成を用いて,$g$ と類似の性能を持つ表現型アンサンブルを構築するアルゴリズム的手法に依拠している。
標準画像,音声,センサデータセット間で事前学習したモデルを分解することで,B-DISTILの有効性を示す。
また、収束と一般化の観点から理論的な保証を提供する。
関連論文リスト
- A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。
ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。
当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文 参考訳(メタデータ) (2024-11-20T20:38:56Z) - Supervised Score-Based Modeling by Gradient Boosting [49.556736252628745]
本稿では,スコアマッチングを組み合わせた勾配向上アルゴリズムとして,SSM(Supervised Score-based Model)を提案する。
推測時間と予測精度のバランスをとるため,SSMの学習とサンプリングに関する理論的解析を行った。
我々のモデルは、精度と推測時間の両方で既存のモデルより優れています。
論文 参考訳(メタデータ) (2024-11-02T07:06:53Z) - Fine-Tuning with Divergent Chains of Thought Boosts Reasoning Through Self-Correction in Language Models [63.36637269634553]
本稿では,複数の推論連鎖を比較するためにモデルを必要とすることによって,性能を向上する新しい手法を提案する。
DCoTデータセットの命令チューニングにより、より小さく、よりアクセスしやすい言語モデルの性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-07-03T15:01:18Z) - Bayesian Estimate of Mean Proper Scores for Diversity-Enhanced Active
Learning [6.704927458661697]
期待されている損失削減(ELR)は、分類誤差の低減と、同じフレームワークに適合するより一般的なコストのベイズ推定に焦点を当てている。
本研究では,平均値スコア(BEMPS)のベイズ推定を行い,厳密なスコアの増加を推定する。
我々は,BEMPSが頑健な獲得関数とよく校正された分類器を出力し,他の試験よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-12-15T11:02:17Z) - Efficient Epistemic Uncertainty Estimation in Regression Ensemble Models
Using Pairwise-Distance Estimators [21.098866735156207]
ペアワイズ距離推定器(PaiDEs)はエントロピー上の境界を確立する。
サンプルベースのモンテカルロ推定器とは異なり、PaiDEは最大100倍の速度でてんかんの不確実性を推定する顕著な能力を示す。
我々は,既存の能動学習手法と比較し,高次元回帰タスクにおいて,我々のアプローチが優れていることを見出した。
論文 参考訳(メタデータ) (2023-08-25T17:13:42Z) - Deep Negative Correlation Classification [82.45045814842595]
既存のディープアンサンブル手法は、多くの異なるモデルをナビゲートし、予測を集約する。
深部負相関分類(DNCC)を提案する。
DNCCは、個々の推定器が正確かつ負の相関を持つ深い分類アンサンブルを生成する。
論文 参考訳(メタデータ) (2022-12-14T07:35:20Z) - ST-CoNAL: Consistency-Based Acquisition Criterion Using Temporal
Self-Ensemble for Active Learning [7.94190631530826]
トレーニングプロセスの効率を最大化するためには、アクティブラーニング(AL)がますます重要になっている。
学生教師の一貫性に基づくALアルゴリズム(ST-CoNAL)を提案する。
CIFAR-10、CIFAR-100、Caltech-256、Tiny ImageNetの画像分類タスクに対して行われた実験は、提案したSTCoNALが既存の取得方法よりも大幅に優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-05T17:25:59Z) - HyperImpute: Generalized Iterative Imputation with Automatic Model
Selection [77.86861638371926]
カラムワイズモデルを適応的かつ自動的に構成するための一般化反復計算フレームワークを提案する。
既製の学習者,シミュレータ,インターフェースを備えた具体的な実装を提供する。
論文 参考訳(メタデータ) (2022-06-15T19:10:35Z) - Adaptive Estimation and Uniform Confidence Bands for Nonparametric
Structural Functions and Elasticities [2.07706336594149]
非パラメトリックモデルにおいて、最適推定と推論のための2つのデータ駆動手法を導入する。
我々は、国際貿易の独占的競争モデルにおいて、ファーム輸出の集中的マージンの弾力性を推定する。
論文 参考訳(メタデータ) (2021-07-25T18:46:33Z) - Mean Embeddings with Test-Time Data Augmentation for Ensembling of
Representations [8.336315962271396]
表現のアンサンブルを考察し、MeTTA(Test-time augmentation)を用いた平均埋め込みを提案する。
MeTTAは、教師付きモデルと自己教師付きモデルの両方において、ImageNetの線形評価の質を大幅に向上させる。
我々は、より高品質な表現を推論するためにアンサンブルの成功を広めることが、多くの新しいアンサンブルアプリケーションを開く重要なステップであると信じている。
論文 参考訳(メタデータ) (2021-06-15T10:49:46Z) - Control as Hybrid Inference [62.997667081978825]
本稿では、反復推論と償却推論のバランスを自然に仲介するCHIの実装について述べる。
連続的な制御ベンチマークでアルゴリズムのスケーラビリティを検証し、強力なモデルフリーおよびモデルベースラインを上回る性能を示す。
論文 参考訳(メタデータ) (2020-07-11T19:44:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。