Fugu-MT 論文翻訳(概要): Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation

論文の概要: Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation

arxiv url: http://arxiv.org/abs/2108.11798v1
Date: Thu, 26 Aug 2021 14:01:04 GMT
ステータス: 翻訳完了
システム内更新日: 2021-08-27 19:05:23.313221
Title: Efficient training of lightweight neural networks using Online Self-Acquired Knowledge Distillation
Title（参考訳）: オンライン自己獲得知識蒸留を用いた軽量ニューラルネットワークの効率的な学習
Authors: Maria Tzelepi and Anastasios Tefas
Abstract要約: オンライン自己獲得知識蒸留(OSAKD)は、ディープニューラルネットワークの性能をオンライン的に向上することを目的としている。出力特徴空間におけるデータサンプルの未知確率分布を推定するために、k-nnノンパラメトリック密度推定手法を用いる。
参考スコア（独自算出の注目度）: 51.66271681532262
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Knowledge Distillation has been established as a highly promising approach for training compact and faster models by transferring knowledge from heavyweight and powerful models. However, KD in its conventional version constitutes an enduring, computationally and memory demanding process. In this paper, Online Self-Acquired Knowledge Distillation (OSAKD) is proposed, aiming to improve the performance of any deep neural model in an online manner. We utilize k-nn non-parametric density estimation technique for estimating the unknown probability distributions of the data samples in the output feature space. This allows us for directly estimating the posterior class probabilities of the data samples, and we use them as soft labels that encode explicit information about the similarities of the data with the classes, negligibly affecting the computational cost. The experimental evaluation on four datasets validates the effectiveness of proposed method.
Abstract（参考訳）: 知識蒸留は、重厚で強力なモデルから知識を伝達することで、コンパクトで高速なモデルを訓練するための非常に有望なアプローチとして確立されている。しかし、従来のkdは永続的、計算的、メモリ要求のプロセスを構成する。本稿では, オンライン自己獲得知識蒸留(OSAKD)を提案し, ディープニューラルモデルの性能をオンライン的に向上することを目的とした。出力特徴空間におけるデータサンプルの未知確率分布の推定にk-nnノンパラメトリック密度推定法を用いる。これにより、データサンプルの後方クラス確率を直接推定することができ、それらをソフトラベルとして使用し、クラスとの類似性に関する明示的な情報を符号化し、計算コストに悪影響を及ぼす。 4つのデータセットの実験的評価により,提案手法の有効性が検証された。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
Generative Data Imputation for Sparse Learner Performance Data Using Generative Adversarial Imputation Networks [3.0800525961862992]
スキップや不完全な試みによるレスポンスの欠落は、データの疎結合を生み出す。我々は、GAIN(Generative Adrial Imputation Networks)を用いた生成的計算手法を提案する。提案手法は3次元のフレームワーク(学習者,質問,試行)を特徴とし,様々な空間レベルを柔軟に調節する。
論文参考訳（メタデータ） (2025-03-23T06:11:53Z)
KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文参考訳（メタデータ） (2024-11-22T08:21:03Z)
Condensed Sample-Guided Model Inversion for Knowledge Distillation [42.91823325342862]
知識蒸留(KD)は、訓練済みの教師モデルからよりコンパクトな学生モデルへの知識伝達を可能にするニューラルネットワーク圧縮の重要な要素である。 KDはトレーニングデータセットへのアクセスに依存しているため、プライバシの懸念や、データのサイズに関する論理的な問題のために、必ずしも完全に利用できるとは限らない。本稿では, 縮合したサンプルを補足情報の一形態とみなし, 対象データ分布をよりよく近似する手法を提案する。
論文参考訳（メタデータ） (2024-08-25T14:43:27Z)
CALICO: Confident Active Learning with Integrated Calibration [11.978551396144532]
トレーニングプロセス中にサンプル選択に使用される信頼度を自己校正するALフレームワークを提案する。ラベル付きサンプルが少ないソフトマックス分類器と比較して,分類性能が向上した。
論文参考訳（メタデータ） (2024-07-02T15:05:19Z)
Small Scale Data-Free Knowledge Distillation [37.708282211941416]
小型データフリーな知識蒸留SSD-KDを提案する。 SSD-KDは、適切なサンプルを選択するために、合成サンプルと優先サンプリング関数のバランスをとる。非常に少量の合成サンプルで蒸留訓練を行うことができる。
論文参考訳（メタデータ） (2024-06-12T05:09:41Z)
KAKURENBO: Adaptively Hiding Samples in Deep Neural Network Training [2.8804804517897935]
深層ニューラルネットワークのトレーニングにおいて,最も重要でないサンプルを隠蔽する手法を提案する。我々は,学習プロセス全体への貢献に基づいて,与えられたエポックを除外するサンプルを適応的に見つける。本手法は, ベースラインと比較して, 最大22%の精度でトレーニング時間を短縮できる。
論文参考訳（メタデータ） (2023-10-16T06:19:29Z)
BOOT: Data-free Distillation of Denoising Diffusion Models with Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文参考訳（メタデータ） (2023-06-08T20:30:55Z)
Post-training Model Quantization Using GANs for Synthetic Data Generation [57.40733249681334]
量子化法における実データを用いたキャリブレーションの代用として合成データを用いた場合について検討する。本稿では,StyleGAN2-ADAが生成したデータと事前学習したDiStyleGANを用いて定量化したモデルの性能と,実データを用いた量子化とフラクタル画像に基づく代替データ生成手法との比較を行った。
論文参考訳（メタデータ） (2023-05-10T11:10:09Z)
Uncertainty Estimation by Fisher Information-based Evidential Deep Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文参考訳（メタデータ） (2023-03-03T16:12:59Z)
Neural Capacity Estimators: How Reliable Are They? [14.904387585122851]
我々は、相互情報神経推定器(MINE)、スムーズな相互情報下界推定器(SMILE)、情報指向神経推定器(DINE)の性能について検討した。我々は,AWGNチャネル,光強度チャネル,ピーク電力制約AWGNチャネルに接近する入力分布を学習する能力の観点から,これらのアルゴリズムを評価する。
論文参考訳（メタデータ） (2021-11-14T18:14:53Z)
MixKD: Towards Efficient Distillation of Large-scale Language Models [129.73786264834894]
データに依存しない蒸留フレームワークであるMixKDを提案する。妥当な条件下では、MixKDは誤差と経験的誤差の間のギャップを小さくする。限定的なデータ設定とアブレーションによる実験は、提案手法の利点をさらに証明している。
論文参考訳（メタデータ） (2020-11-01T18:47:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。