論文の概要: Data Upcycling Knowledge Distillation for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2309.14162v2
- Date: Tue, 5 Dec 2023 08:38:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-06 19:34:11.597672
- Title: Data Upcycling Knowledge Distillation for Image Super-Resolution
- Title(参考訳): 画像スーパーレゾリューションのためのデータアップサイクリング知識蒸留
- Authors: Yun Zhang, Wei Li, Simiao Li, Jie Hu, Hanting Chen, Hailing Wang,
Zhijun Tu, Wenjia Wang, Bingyi Jing and Yunhe Wang
- Abstract要約: 知識蒸留(KD)は、深層ニューラルネットワークを圧縮するための有望だが挑戦的な手法として現れる。
本稿では,効率的なデータ利用,すなわちデータリサイクル知識蒸留(DUKD)の観点からアプローチを行った。
我々は、ペア化された可逆データ拡張によって実装されたSRモデルのKDにおけるラベル整合性正規化を実現する。
様々なベンチマークに関する総合的な実験は、DUKD法が過去の技術よりも大幅に優れていることを示した。
- 参考スコア(独自算出の注目度): 32.705557805057026
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Knowledge distillation (KD) emerges as a promising yet challenging technique
for compressing deep neural networks, aiming to transfer extensive learning
representations from proficient and computationally intensive teacher models to
compact student models. However, current KD methods for super-resolution (SR)
models have limited performance and restricted applications, since the
characteristics of SR tasks are overlooked. In this paper, we put forth an
approach from the perspective of effective data utilization, namely, the Data
Upcycling Knowledge Distillation (DUKD), which facilitates the student model by
the prior knowledge the teacher provided through the upcycled in-domain data
derived from the input images. Besides, for the first time, we realize the
label consistency regularization in KD for SR models, which is implemented by
the paired invertible data augmentations. It constrains the training process of
KD and leads to better generalization capability of the student model. The
DUKD, due to its versatility, can be applied across a broad spectrum of
teacher-student architectures (e.g., CNN and Transformer models) and SR tasks,
such as single image SR, real-world SR, and SR quantization, and is in parallel
with other compression techniques. Comprehensive experiments on diverse
benchmarks demonstrate that the DUKD method significantly outperforms previous
art.
- Abstract(参考訳): 知識蒸留(KD)は深層ニューラルネットワークを圧縮するための有望で挑戦的な手法として登場し、熟練した計算集約的な教師モデルからコンパクトな学生モデルへの広範な学習表現の転送を目指している。
しかし、現在の超解像モデル(SR)のKD法は、SRタスクの特性が見過ごされているため、性能が制限され、応用が制限されている。
本稿では,教師が入力画像から得られたアップサイクルされたドメイン内データを通じて提供した事前知識により,学生モデルを容易にするデータリサイクル知識蒸留(DuKD)という,効果的なデータ利用の観点からアプローチを行った。
さらに、SRモデルのKDにおけるラベル整合性規則化を初めて実現し、ペア化された可逆データ拡張によって実装する。
これはKDの訓練過程を制約し、学生モデルのより優れた一般化能力をもたらす。
DUKDはその汎用性から、教師と学生の幅広いアーキテクチャ(CNNやTransformerモデルなど)や、シングルイメージSR、実世界SR、SR量子化といったSRタスクに適用でき、他の圧縮技術と平行している。
様々なベンチマークに関する総合的な実験は、DUKD法が過去の技術よりも大幅に優れていることを示した。
関連論文リスト
- Speculative Knowledge Distillation: Bridging the Teacher-Student Gap Through Interleaved Sampling [81.00825302340984]
本研究では,高品質なトレーニングデータを生成するために,投機的知識蒸留(SKD)を導入する。
SKDでは、学生はトークンを提案し、教師はそれ自身の分布に基づいて低いランクのトークンを置き換える。
翻訳,要約,数学,指示文など,各種テキスト生成タスクにおけるSKDの評価を行った。
論文 参考訳(メタデータ) (2024-10-15T06:51:25Z) - Exploring and Enhancing the Transfer of Distribution in Knowledge Distillation for Autoregressive Language Models [62.5501109475725]
知識蒸留(KD)は、より小さな学生モデルを模倣するように訓練することで、大きな教師モデルを圧縮する技術である。
本稿では、教師ネットワークが小さなオンラインモジュールを統合し、学生モデルと同時学習するオンライン知識蒸留(OKD)について紹介する。
OKDは、様々なモデルアーキテクチャやサイズにおけるリードメソッドのパフォーマンスを達成または超え、トレーニング時間を最大4倍に短縮する。
論文 参考訳(メタデータ) (2024-09-19T07:05:26Z) - Robustness-Reinforced Knowledge Distillation with Correlation Distance
and Network Pruning [3.1423836318272773]
知識蒸留(KD)は、効率的で軽量なモデルの性能を向上させる。
既存のKD技術のほとんどは、Kulback-Leibler(KL)の発散に依存している。
相関距離とネットワークプルーニングを利用したロバストネス強化知識蒸留(R2KD)を提案する。
論文 参考訳(メタデータ) (2023-11-23T11:34:48Z) - Comparative Knowledge Distillation [102.35425896967791]
伝統的な知識蒸留(KD)は、頻繁な推論のために教師モデルに容易にアクセスできることを前提としている。
本稿では,教師モデルにおけるサンプルの解釈の微妙な違いを学生モデルに理解させるための比較知識蒸留(CKD)を提案する。
CKDは、アートデータ拡張とKDテクニックの状態を一貫して上回る。
論文 参考訳(メタデータ) (2023-11-03T21:55:33Z) - Directed Acyclic Graph Factorization Machines for CTR Prediction via
Knowledge Distillation [65.62538699160085]
本稿では,既存の複雑な相互作用モデルから,知識蒸留によるCTR予測のための高次特徴相互作用を学習するための非巡回グラフファクトリゼーションマシン(KD-DAGFM)を提案する。
KD-DAGFMは、オンラインとオフラインの両方の実験において、最先端のFLOPの21.5%未満で最高の性能を達成する。
論文 参考訳(メタデータ) (2022-11-21T03:09:42Z) - Knowledge Distillation with Deep Supervision [6.8080936803807734]
本研究では,教師モデルのクラス予測と特徴マップをフル活用し,浅層学習モデルの指導を監督する深層学習知識蒸留(DSKD)を提案する。
DSKDでは、各浅い層の学習過程を適応的にバランスさせ、学生のパフォーマンスをさらに向上するため、損失に基づく重み付け戦略が開発されている。
論文 参考訳(メタデータ) (2022-02-16T03:58:21Z) - How and When Adversarial Robustness Transfers in Knowledge Distillation? [137.11016173468457]
本稿では,教師モデルから学生モデルへの知識蒸留(KD)における対向ロバスト性の移行について検討する。
我々は,標準的なKDトレーニングが対向的堅牢性を維持するのに失敗することを示すとともに,KDIGA(入力勾配アライメント)を併用したKDを提案する。
特定の前提の下では、提案したKDIGAを用いた学生モデルは、少なくとも教師モデルと同じ確証された堅牢性を達成することができることを証明している。
論文 参考訳(メタデータ) (2021-10-22T21:30:53Z) - Residual Knowledge Distillation [96.18815134719975]
本研究は,アシスタント(A)を導入し,さらに知識を蒸留する残留知識蒸留(RKD)を提案する。
このように、S は T の特徴写像を模倣するように訓練され、A はそれらの間の残差を学習することでこの過程を支援する。
提案手法は,CIFAR-100 と ImageNet という,一般的な分類データセットにおいて魅力的な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-02-21T07:49:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。