論文の概要: MicroAST: Towards Super-Fast Ultra-Resolution Arbitrary Style Transfer
- arxiv url: http://arxiv.org/abs/2211.15313v1
- Date: Mon, 28 Nov 2022 13:49:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-29 15:40:25.236523
- Title: MicroAST: Towards Super-Fast Ultra-Resolution Arbitrary Style Transfer
- Title(参考訳): MicroAST: 超高分解能任意型トランスファーを目指して
- Authors: Zhizhong Wang, Lei Zhao, Zhiwen Zuo, Ailin Li, Haibo Chen, Wei Xing,
Dongming Lu
- Abstract要約: 任意スタイル転送(AST)は、任意の芸術スタイルをコンテンツイメージに転送する。
既存のASTメソッドは、超高解像度で実行できないか、遅すぎる。
MicroASTと呼ばれる単純で軽量なモデルを学びます。
- 参考スコア(独自算出の注目度): 17.3797025528892
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Arbitrary style transfer (AST) transfers arbitrary artistic styles onto
content images. Despite the recent rapid progress, existing AST methods are
either incapable or too slow to run at ultra-resolutions (e.g., 4K) with
limited resources, which heavily hinders their further applications. In this
paper, we tackle this dilemma by learning a straightforward and lightweight
model, dubbed MicroAST. The key insight is to completely abandon the use of
cumbersome pre-trained Deep Convolutional Neural Networks (e.g., VGG) at
inference. Instead, we design two micro encoders (content and style encoders)
and one micro decoder for style transfer. The content encoder aims at
extracting the main structure of the content image. The style encoder, coupled
with a modulator, encodes the style image into learnable dual-modulation
signals that modulate both intermediate features and convolutional filters of
the decoder, thus injecting more sophisticated and flexible style signals to
guide the stylizations. In addition, to boost the ability of the style encoder
to extract more distinct and representative style signals, we also introduce a
new style signal contrastive loss in our model. Compared to the state of the
art, our MicroAST not only produces visually superior results but also is 5-73
times smaller and 6-18 times faster, for the first time enabling super-fast
(about 0.5 seconds) AST at 4K ultra-resolutions. Code is available at
https://github.com/EndyWon/MicroAST.
- Abstract(参考訳): 任意スタイル転送(AST)は、任意の芸術スタイルをコンテンツイメージに転送する。
最近の急速な進歩にもかかわらず、既存のastメソッドは、リソースが限られている超高解像度(4kなど)で実行できないか、遅すぎるため、さらなるアプリケーションを妨げる。
本稿では,MicroASTと呼ばれる単純で軽量なモデルを学ぶことで,このジレンマに対処する。
鍵となる洞察は、推論時に面倒な事前訓練されたDeep Convolutional Neural Networks(例えばVGG)の使用を完全に放棄することである。
代わりに、2つのマイクロエンコーダ(コンテンツエンコーダとスタイルエンコーダ)と1つのマイクロデコーダを設計する。
コンテンツエンコーダは、コンテンツ画像の主構造を抽出することを目的とする。
スタイルエンコーダは、変調器と組み合わせて、このスタイル画像を学習可能なデュアル変調信号に符号化し、デコーダの中間特徴と畳み込みフィルタの両方を変調し、より洗練され柔軟なスタイル信号を注入してスタイル化を導く。
さらに、より明瞭で代表的なスタイル信号を抽出するスタイルエンコーダの能力を高めるために、我々のモデルに新しいスタイル信号のコントラストロスを導入する。
この技術と比較すると、私たちのMicroASTは視覚的に優れた結果をもたらすだけでなく、5-73倍小さく、6-18倍速く、初めて超高速(0.5秒)のASTを4K超解像度で実現しました。
コードはhttps://github.com/EndyWon/MicroASTで入手できる。
関連論文リスト
- When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - FreeStyle: Free Lunch for Text-guided Style Transfer using Diffusion Models [11.401299303276016]
我々は,事前学習した大拡散モデルに基づいて構築された,革新的なスタイル転送手法であるFreeStyleを紹介する。
本手法では,所望のスタイルのテキスト記述のみでスタイル転送が可能であり,スタイル画像の必要がなくなる。
実験の結果,様々なコンテンツ画像とスタイルのテキストプロンプトにまたがって,提案手法の高品質な合成と忠実さを実証した。
論文 参考訳(メタデータ) (2024-01-28T12:00:31Z) - Faster Diffusion: Rethinking the Role of the Encoder for Diffusion Model Inference [95.42299246592756]
本稿では,UNetエンコーダについて検討し,エンコーダの特徴を実証的に分析する。
エンコーダの特徴は最小限に変化するが,デコーダの特徴は時間段階によって大きく異なる。
我々は、テキスト・ツー・ビデオ、パーソナライズド・ジェネレーション、参照誘導ジェネレーションといった他のタスクに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-12-15T08:46:43Z) - Latent-Shift: Latent Diffusion with Temporal Shift for Efficient
Text-to-Video Generation [115.09597127418452]
Latent-Shiftは、事前訓練されたテキスト・ツー・イメージ生成モデルに基づく効率的なテキスト・ツー・ビデオ生成手法である。
Latent-Shiftは、より効率的でありながら、同等またはより良い結果が得られることを示す。
論文 参考訳(メタデータ) (2023-04-17T17:57:06Z) - Video Coding Using Learned Latent GAN Compression [1.6058099298620423]
ビデオの表現と圧縮にはStyleGANなどのGANの生成能力を活用する。
各フレームはStyleGANの潜在空間で反転され、そこから最適な圧縮が学習される。
論文 参考訳(メタデータ) (2022-07-09T19:07:43Z) - Feature-Style Encoder for Style-Based GAN Inversion [1.9116784879310027]
本稿では,特徴型エンコーダ(Feature-Style encoder)と呼ばれる,GANインバージョンのための新しいアーキテクチャを提案する。
本モデルは,事前学習したスタイルベースGANモデルの潜在空間から,実画像の正確な逆変換を実現する。
エンコーダ構造のおかげで、モデルは高速で正確な画像編集を可能にする。
論文 参考訳(メタデータ) (2022-02-04T15:19:34Z) - Transformer-based Image Compression [18.976159633970177]
Transformer-based Image Compression (TIC) アプローチは、標準変分オートエンコーダ(VAE)アーキテクチャをメインおよびハイパーエンコーダデコーダのペアで再利用する。
TICは、Deep Convolutional Neural Network(CNN)ベースの学習画像符号化(lic)メソッドや、最近承認されたVersatile Video Coding(VVC)標準のハンドクラフトルールベースの内部プロファイルなど、最先端のアプローチと競合する。
論文 参考訳(メタデータ) (2021-11-12T13:13:20Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Small Lesion Segmentation in Brain MRIs with Subpixel Embedding [105.1223735549524]
ヒト脳のMRIスキャンを虚血性脳梗塞と正常組織に分割する方法を提案する。
本稿では,空間展開埋め込みネットワークによって予測を導出する標準エンコーダデコーダの形式でニューラルネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-09-18T00:21:17Z) - Real-time Universal Style Transfer on High-resolution Images via
Zero-channel Pruning [74.09149955786367]
ArtNetは、高解像度画像上の普遍的、リアルタイム、および高品質なスタイル転送を同時に達成することができる。
ArtNetとS2を使用することで、我々の手法は最先端の手法よりも2.3~107.4倍高速である。
論文 参考訳(メタデータ) (2020-06-16T09:50:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。