論文の概要: Collaborative Distillation for Ultra-Resolution Universal Style Transfer
- arxiv url: http://arxiv.org/abs/2003.08436v2
- Date: Tue, 24 Mar 2020 15:09:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 09:58:11.053252
- Title: Collaborative Distillation for Ultra-Resolution Universal Style Transfer
- Title(参考訳): 超解像ユニバーサルスタイル変換のための共同蒸留法
- Authors: Huan Wang, Yijun Li, Yuehai Wang, Haoji Hu, Ming-Hsuan Yang
- Abstract要約: 本稿では,エンコーダ-デコーダを用いたニューラルスタイル変換のための新しい知識蒸留法(コラボレーティブ蒸留)を提案する。
12GBのGPUで、初めて超高解像度(40メガピクセル以上)のユニバーサルなスタイル転送を実現しました。
- 参考スコア(独自算出の注目度): 71.18194557949634
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Universal style transfer methods typically leverage rich representations from
deep Convolutional Neural Network (CNN) models (e.g., VGG-19) pre-trained on
large collections of images. Despite the effectiveness, its application is
heavily constrained by the large model size to handle ultra-resolution images
given limited memory. In this work, we present a new knowledge distillation
method (named Collaborative Distillation) for encoder-decoder based neural
style transfer to reduce the convolutional filters. The main idea is
underpinned by a finding that the encoder-decoder pairs construct an exclusive
collaborative relationship, which is regarded as a new kind of knowledge for
style transfer models. Moreover, to overcome the feature size mismatch when
applying collaborative distillation, a linear embedding loss is introduced to
drive the student network to learn a linear embedding of the teacher's
features. Extensive experiments show the effectiveness of our method when
applied to different universal style transfer approaches (WCT and AdaIN), even
if the model size is reduced by 15.5 times. Especially, on WCT with the
compressed models, we achieve ultra-resolution (over 40 megapixels) universal
style transfer on a 12GB GPU for the first time. Further experiments on
optimization-based stylization scheme show the generality of our algorithm on
different stylization paradigms. Our code and trained models are available at
https://github.com/mingsun-tse/collaborative-distillation.
- Abstract(参考訳): ユニバーサルスタイル転送法は通常、大量の画像に事前学習された深層畳み込みニューラルネットワーク(cnn)モデル(例えばvgg-19)からのリッチな表現を利用する。
有効性にもかかわらず、その応用は、メモリが制限された超高解像度画像を扱うために、大きなモデルサイズに強く制約されている。
本研究では,エンコーダデコーダを用いたニューラルスタイル転送のための新しい知識蒸留法(Collaborative Distillation)を提案し,畳み込みフィルタの低減を図る。
主な考え方は、エンコーダとデコーダのペアが排他的な協調関係を構築していることであり、これはスタイル転送モデルの新しい種類の知識と見なされている。
また, 共同蒸留における特徴量ミスマッチを克服するために, 学生ネットワークを駆動し, 教師の特徴の線形埋め込みを学習するために, 線形埋め込み損失を導入する。
広範な実験により、モデルサイズが15.5倍小さくても、異なるユニバーサルスタイル転送アプローチ(wct, adain)に適用した場合の有効性が示された。
特に,圧縮モデルを用いたWCTでは,12GBのGPU上での超高解像度(40メガピクセル以上)のユニバーサルな転送を実現している。
最適化に基づくスタイリゼーション手法のさらなる実験は、異なるスタイリゼーションパラダイムに基づくアルゴリズムの一般化を示す。
私たちのコードとトレーニングされたモデルは、https://github.com/mingsun-tse/collaborative-distillationで利用可能です。
関連論文リスト
- Language Models as Zero-shot Lossless Gradient Compressors: Towards
General Neural Parameter Prior Models [66.1595537904019]
大型言語モデル(LLM)はゼロショット設定でグラデーション先行として振る舞うことができる。
本稿では,LSMと算術符号を統合する新しい手法であるLM-GCを紹介する。
論文 参考訳(メタデータ) (2024-09-26T13:38:33Z) - LinFusion: 1 GPU, 1 Minute, 16K Image [71.44735417472043]
我々は,広く普及している線形トークンミキサーの低ランク近似を導入する。
蒸留したLinFusionは,元のSDと同等以上の性能を示す。
SD-v1.5、SD-v2.1、SD-XLの実験は、LinFusionが良好なゼロショットクロスレゾリューション生成を可能にすることを示した。
論文 参考訳(メタデータ) (2024-09-03T17:54:39Z) - Knowledge Distillation with Multi-granularity Mixture of Priors for Image Super-Resolution [25.558550480342614]
本研究は,KDPKフレームワークのマルチグラニュラリティ混合であるMIDPKを示し,高効率な画像超解像モデルを実現する。
提案手法の有効性を示す実験を行った。
論文 参考訳(メタデータ) (2024-04-03T08:47:40Z) - FouriScale: A Frequency Perspective on Training-Free High-Resolution Image Synthesis [48.9652334528436]
本稿では、周波数領域解析の観点から、FouriScaleの革新的な学習不要アプローチを紹介する。
従来の拡散モデルの畳み込み層を,低域演算とともに拡張手法を組み込むことで置き換える。
提案手法は, 生成画像の構造的整合性と忠実度をバランスさせ, 任意のサイズ, 高解像度, 高品質な生成の驚くべき能力を実現する。
論文 参考訳(メタデータ) (2024-03-19T17:59:33Z) - Prompt-Based Exemplar Super-Compression and Regeneration for
Class-Incremental Learning [22.676222987218555]
超圧縮再生法であるESCORTは、その量を大幅に増加させ、模範者の多様性を高める。
生成した例と実画像の領域ギャップを最小限に抑えるために,部分圧縮と拡散に基づくデータ拡張を提案する。
論文 参考訳(メタデータ) (2023-11-30T05:59:31Z) - Strong Baseline and Bag of Tricks for COVID-19 Detection of CT Scans [2.696776905220987]
従来のディープラーニングフレームワークは、CT画像のスライス数や解像度の変化によって互換性の問題に直面する。
この制限に対処するために,各CTデータセットに対して新しいスライス選択法を提案する。
上記の方法に加えて、様々な高性能分類モデルについて検討し、最終的には有望な結果を得る。
論文 参考訳(メタデータ) (2023-03-15T09:52:28Z) - Image-specific Convolutional Kernel Modulation for Single Image
Super-resolution [85.09413241502209]
本稿では,新しい画像特異的畳み込み変調カーネル(IKM)を提案する。
我々は、画像や特徴のグローバルな文脈情報を利用して、畳み込みカーネルを適応的に調整するための注意重みを生成する。
単一画像超解像実験により,提案手法は最先端手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2021-11-16T11:05:10Z) - Learned Multi-Resolution Variable-Rate Image Compression with
Octave-based Residual Blocks [15.308823742699039]
一般化オクターブ畳み込み(GoConv)と一般化オクターブ畳み込み(GoTConv)を用いた新しい可変レート画像圧縮フレームワークを提案する。
単一モデルが異なるビットレートで動作し、複数レートの画像特徴を学習できるようにするため、新しい目的関数が導入される。
実験結果から,H.265/HEVCベースのBPGや最先端の学習に基づく可変レート法などの標準コーデックよりも高い性能を示した。
論文 参考訳(メタデータ) (2020-12-31T06:26:56Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。