論文の概要: Churn Reduction via Distillation
- arxiv url: http://arxiv.org/abs/2106.02654v1
- Date: Fri, 4 Jun 2021 18:03:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-15 11:23:38.732156
- Title: Churn Reduction via Distillation
- Title(参考訳): 蒸留によるチャーン還元
- Authors: Heinrich Jiang, Harikrishna Narasimhan, Dara Bahri, Andrew Cotter,
Afshin Rostamizadeh
- Abstract要約: 本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
- 参考スコア(独自算出の注目度): 54.5952282395487
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In real-world systems, models are frequently updated as more data becomes
available, and in addition to achieving high accuracy, the goal is to also
maintain a low difference in predictions compared to the base model (i.e.
predictive ``churn''). If model retraining results in vastly different
behavior, then it could cause negative effects in downstream systems,
especially if this churn can be avoided with limited impact on model accuracy.
In this paper, we show an equivalence between training with distillation using
the base model as the teacher and training with an explicit constraint on the
predictive churn. We then show that distillation performs strongly for low
churn training against a number of recent baselines on a wide range of datasets
and model architectures, including fully-connected networks, convolutional
networks, and transformers.
- Abstract(参考訳): 現実のシステムでは、より多くのデータが利用可能になるとモデルが頻繁に更新され、高い精度を達成することに加えて、ベースモデル(すなわち、ベースモデル)と比較して予測の低差を維持することも目標としている。
予測する ``churn'')。
モデル再訓練が全く異なる振る舞いをもたらす場合、特にモデル精度に限定した影響でこのチャーンを避けることができれば、下流システムに悪影響を及ぼす可能性がある。
本稿では, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留は, 完全連結ネットワーク, 畳み込みネットワーク, 変圧器を含む, 幅広いデータセットおよびモデルアーキテクチャに基づく最近の多くのベースラインに対して, 低いチャーントレーニングに強く貢献することを示す。
関連論文リスト
- Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Online learning techniques for prediction of temporal tabular datasets
with regime changes [0.0]
時間パネルデータセットの予測をランキングするモジュール型機械学習パイプラインを提案する。
パイプラインのモジュラリティにより、GBDT(Gradient Boosting Decision Tree)やニューラルネットワークなど、さまざまなモデルの使用が可能になる。
モデルの再トレーニングを必要としないオンライン学習技術は、予測後の結果を高めるために使用することができる。
論文 参考訳(メタデータ) (2022-12-30T17:19:00Z) - A Physics-informed Diffusion Model for High-fidelity Flow Field
Reconstruction [0.0]
本研究では,高忠実度データのみを使用する拡散モデルを提案する。
異なる構成で、本モデルでは、正規の低忠実度サンプルまたはスパース測定サンプルから高忠実度データを再構成することができる。
本モデルでは, 異なる入力源に基づく2次元乱流の正確な再構成結果が得られるが, 再学習は行わない。
論文 参考訳(メタデータ) (2022-11-26T23:14:18Z) - How Well Do Sparse Imagenet Models Transfer? [75.98123173154605]
転送学習は、大規模な"上流"データセットで事前訓練されたモデルが、"下流"データセットで良い結果を得るために適応される古典的なパラダイムである。
本研究では、ImageNetデータセットでトレーニングされた畳み込みニューラルネットワーク(CNN)のコンテキストにおいて、この現象を詳細に調査する。
スパースモデルでは, 高空間であっても, 高密度モデルの転送性能にマッチしたり, 性能に優れることを示す。
論文 参考訳(メタデータ) (2021-11-26T11:58:51Z) - Consistent Counterfactuals for Deep Models [25.1271020453651]
ファクトファクトの例は、金融や医療診断といった重要な領域における機械学習モデルの予測を説明するために使用される。
本稿では,初期訓練条件に小さな変更を加えた深層ネットワークにおける実例に対するモデル予測の整合性について検討する。
論文 参考訳(メタデータ) (2021-10-06T23:48:55Z) - End-to-End Weak Supervision [15.125993628007972]
下流モデルを直接学習するためのエンドツーエンドアプローチを提案する。
下流テストセットにおけるエンドモデル性能の観点から,先行作業よりも性能が向上したことを示す。
論文 参考訳(メタデータ) (2021-07-05T19:10:11Z) - Self-Damaging Contrastive Learning [92.34124578823977]
ラベルのないデータは一般に不均衡であり、長い尾の分布を示す。
本稿では,クラスを知らずに表現学習を自動的にバランスをとるための,自己学習コントラスト学習という原則的枠組みを提案する。
実験の結果,SDCLRは全体としての精度だけでなく,バランス性も著しく向上することがわかった。
論文 参考訳(メタデータ) (2021-06-06T00:04:49Z) - Firearm Detection via Convolutional Neural Networks: Comparing a
Semantic Segmentation Model Against End-to-End Solutions [68.8204255655161]
武器の脅威検出とライブビデオからの攻撃的な行動は、潜在的に致命的な事故の迅速検出と予防に使用できる。
これを実現する一つの方法は、人工知能と、特に画像分析のための機械学習を使用することです。
従来のモノリシックなエンド・ツー・エンドのディープラーニングモデルと、セマンティクスセグメンテーションによって火花を検知する単純なニューラルネットワークのアンサンブルに基づく前述したモデルを比較した。
論文 参考訳(メタデータ) (2020-12-17T15:19:29Z) - Positive-Congruent Training: Towards Regression-Free Model Updates [87.25247195148187]
画像分類において、サンプルワイドの不整合は「負のフリップ」として現れる
新しいモデルは、古い(参照)モデルによって正しく分類されたテストサンプルの出力を誤って予測する。
そこで本研究では,PC トレーニングのための簡易なアプローチである Focal Distillation を提案する。
論文 参考訳(メタデータ) (2020-11-18T09:00:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。