論文の概要: An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2002.12597v1
- Date: Fri, 28 Feb 2020 08:46:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 01:19:17.425594
- Title: An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation
- Title(参考訳): 知識蒸留を伴う回帰問題に対する小型モデルの効率的な学習法
- Authors: Makoto Takamoto, Yusuke Morishita, and Hitoshi Imaoka
- Abstract要約: 回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
- 参考スコア(独自算出の注目度): 1.433758865948252
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Compressing deep neural network (DNN) models becomes a very important and
necessary technique for real-world applications, such as deploying those models
on mobile devices. Knowledge distillation is one of the most popular methods
for model compression, and many studies have been made on developing this
technique. However, those studies mainly focused on classification problems,
and very few attempts have been made on regression problems, although there are
many application of DNNs on regression problems. In this paper, we propose a
new formalism of knowledge distillation for regression problems. First, we
propose a new loss function, teacher outlier rejection loss, which rejects
outliers in training samples using teacher model predictions. Second, we
consider a multi-task network with two outputs: one estimates training labels
which is in general contaminated by noisy labels; And the other estimates
teacher model's output which is expected to modify the noise labels following
the memorization effects. By considering the multi-task network, training of
the feature extraction of student models becomes more effective, and it allows
us to obtain a better student model than one trained from scratch. We performed
comprehensive evaluation with one simple toy model: sinusoidal function, and
two open datasets: MPIIGaze, and Multi-PIE. Our results show consistent
improvement in accuracy regardless of the annotation error level in the
datasets.
- Abstract(参考訳): ディープニューラルネットワーク(DNN)モデルを圧縮することは、モバイルデバイスにモデルをデプロイするなど、現実のアプリケーションにとって非常に重要で必要なテクニックになります。
知識蒸留はモデル圧縮の最も一般的な方法の1つであり、この手法の開発に関して多くの研究がなされている。
しかし,これらの研究は主に分類問題に焦点を当てており,回帰問題へのDNNの適用は少ないが,回帰問題に対する試みは少ない。
本稿では,回帰問題に対する知識蒸留の新しい形式性を提案する。
まず,教師モデルの予測を用いて,学習サンプルの外れ値を拒否する教師外れ拒否損失という新たな損失関数を提案する。
次に,2つの出力を持つマルチタスクネットワークについて検討する。1つは,ノイズラベルによって一般に汚染されるトレーニングラベルを推定し,もう1つは,記憶効果により雑音ラベルを変更することを想定した教師モデルの出力を推定する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になり、スクラッチから訓練した生徒よりも優れた学生モデルを得ることができる。
1つの単純なおもちゃモデル、正弦波関数と2つのオープンデータセット、MPIIGazeとMulti-PIEを用いて包括的評価を行った。
その結果,データセットのアノテーションエラーレベルに関わらず,精度が一貫した改善が得られた。
関連論文リスト
- Distribution-Level Feature Distancing for Machine Unlearning: Towards a Better Trade-off Between Model Utility and Forgetting [4.220336689294245]
近年の研究では、トレーニングされたモデルを忘れるべきデータを学習させるために、さまざまな機械学習アルゴリズムが提案されている。
本稿では,相関崩壊を防止しつつ,効率よくインスタンスを忘れる新しい手法であるDLFDを提案する。
提案手法はデータサンプルを合成し,生成したデータ分布が特徴空間で忘れられているサンプルの分布から遠ざかるようにする。
論文 参考訳(メタデータ) (2024-09-23T06:51:10Z) - Zero-shot Retrieval: Augmenting Pre-trained Models with Search Engines [83.65380507372483]
大規模で事前訓練されたモデルは、問題を解決するのに必要なタスク固有のデータの量を劇的に削減するが、多くの場合、ドメイン固有のニュアンスを箱から取り出すのに失敗する。
本稿では,NLPとマルチモーダル学習の最近の進歩を活用して,検索エンジン検索による事前学習モデルを強化する方法について述べる。
論文 参考訳(メタデータ) (2023-11-29T05:33:28Z) - Streaming Active Learning for Regression Problems Using Regression via
Classification [12.572218568705376]
本稿では,回帰学習のためのストリーミング能動学習にレグレッション・ウィズ・クラス化フレームワークを用いることを提案する。
レグレッション・ウィズ・クラス化は回帰問題を分類問題に変換し、ストリーミング能動学習法を回帰問題に直接適用できるようにする。
論文 参考訳(メタデータ) (2023-09-02T20:24:24Z) - Gradient Surgery for One-shot Unlearning on Generative Model [0.989293617504294]
我々は、深層生成モデルに影響を及ぼすデータを取り除くための、単純で効果的なアプローチを導入する。
マルチタスク学習における作業に触発されて,サンプル間の影響の相互作用を規則化する勾配の操作を提案する。
論文 参考訳(メタデータ) (2023-07-10T13:29:23Z) - Robust Learning with Progressive Data Expansion Against Spurious
Correlation [65.83104529677234]
本研究では,2層非線形畳み込みニューラルネットワークの学習過程について検討した。
分析の結果,不均衡なデータ群と学習容易なスプリアス特徴が学習過程におけるスプリアス特徴の優位性に繋がる可能性が示唆された。
本稿では,PDEと呼ばれる新たなトレーニングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-06-08T05:44:06Z) - EXPANSE: A Deep Continual / Progressive Learning System for Deep
Transfer Learning [1.1024591739346294]
現在のDTL技術は、破滅的な忘れジレンマまたは過度に偏った事前訓練モデルに悩まされている。
本稿では,これらの制約に対処する深層移動学習のための新しい連続的・進行的学習手法を提案する。
私たちは、人間の教育システムにインスパイアされたディープラーニングモデルをトレーニングする新しい方法を提供する。
論文 参考訳(メタデータ) (2022-05-19T03:54:58Z) - X-model: Improving Data Efficiency in Deep Learning with A Minimax Model [78.55482897452417]
ディープラーニングにおける分類と回帰設定の両面でのデータ効率の向上を目標とする。
両世界の力を生かすために,我々は新しいX-モデルを提案する。
X-モデルは、特徴抽出器とタスク固有のヘッドの間でミニマックスゲームを行う。
論文 参考訳(メタデータ) (2021-10-09T13:56:48Z) - Machine Unlearning of Features and Labels [72.81914952849334]
機械学習モデルにおけるアンラーニングとラベルのファーストシナリオを提案する。
提案手法は,影響関数の概念に基づいて,モデルパラメータのクローズドフォーム更新によるアンラーニングを実現する。
論文 参考訳(メタデータ) (2021-08-26T04:42:24Z) - ALT-MAS: A Data-Efficient Framework for Active Testing of Machine
Learning Algorithms [58.684954492439424]
少量のラベル付きテストデータのみを用いて機械学習モデルを効率的にテストする新しいフレームワークを提案する。
ベイズニューラルネットワーク(bnn)を用いたモデルアンダーテストの関心指標の推定が目的である。
論文 参考訳(メタデータ) (2021-04-11T12:14:04Z) - Learning to Reweight with Deep Interactions [104.68509759134878]
本稿では,教師モデルに内部状態を提供する改良型データ再重み付けアルゴリズムを提案する。
クリーン/ノイズラベルとニューラルマシン翻訳を用いた画像分類実験は、我々のアルゴリズムが従来の手法よりも大幅に改善されていることを実証的に実証した。
論文 参考訳(メタデータ) (2020-07-09T09:06:31Z) - Neural Network Retraining for Model Serving [32.857847595096025]
我々は、推論における新しいデータの継続的な流れに対応するために、ニューラルネットワークモデルの漸進的(再)トレーニングを提案する。
破滅的な再トレーニングと効率的な再トレーニングの2つの課題に対処する。
論文 参考訳(メタデータ) (2020-04-29T13:52:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。