論文の概要: Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot
Artistic Style Transfer
- arxiv url: http://arxiv.org/abs/2304.11818v1
- Date: Mon, 24 Apr 2023 04:46:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 16:19:11.144407
- Title: Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot
Artistic Style Transfer
- Title(参考訳): Master: コントロール可能なゼロショットおよびFewショットアートスタイルトランスのためのメタスタイルトランスフォーマー
- Authors: Hao Tang, Songhua Liu, Tianwei Lin, Shaoli Huang, Fu Li, Dongliang He,
Xinchao Wang
- Abstract要約: 本稿では,スタイル転送に特化した新しいトランスフォーマーモデルであるemphMasterを考案する。
提案モデルでは, 異なるトランスフォーマー層が共通のパラメータ群を共有し, 1) パラメータの総数を減らし, (2) より堅牢なトレーニング収束をもたらし, (3) は容易にスタイリングの程度を制御できる。
実験では、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。
- 参考スコア(独自算出の注目度): 83.1333306079676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models achieve favorable performance in artistic style
transfer recently thanks to its global receptive field and powerful
multi-head/layer attention operations. Nevertheless, the over-paramerized
multi-layer structure increases parameters significantly and thus presents a
heavy burden for training. Moreover, for the task of style transfer, vanilla
Transformer that fuses content and style features by residual connections is
prone to content-wise distortion. In this paper, we devise a novel Transformer
model termed as \emph{Master} specifically for style transfer. On the one hand,
in the proposed model, different Transformer layers share a common group of
parameters, which (1) reduces the total number of parameters, (2) leads to more
robust training convergence, and (3) is readily to control the degree of
stylization via tuning the number of stacked layers freely during inference. On
the other hand, different from the vanilla version, we adopt a learnable
scaling operation on content features before content-style feature interaction,
which better preserves the original similarity between a pair of content
features while ensuring the stylization quality. We also propose a novel meta
learning scheme for the proposed model so that it can not only work in the
typical setting of arbitrary style transfer, but also adaptable to the few-shot
setting, by only fine-tuning the Transformer encoder layer in the few-shot
stage for one specific style. Text-guided few-shot style transfer is firstly
achieved with the proposed framework. Extensive experiments demonstrate the
superiority of Master under both zero-shot and few-shot style transfer
settings.
- Abstract(参考訳): 変圧器型モデルは最近、グローバルレセプティブフィールドと強力なマルチヘッド/レイヤーアテンション操作により、芸術的スタイル転送において良好な性能を達成している。
それにもかかわらず、オーバーパラメライズされた多層構造はパラメータを著しく増加させ、トレーニングに重荷を負う。
また、スタイル転送のタスクでは、残差接続によってコンテンツとスタイル特徴を融合させるバニラトランスは、コンテンツ単位で歪む傾向が強い。
本稿では,スタイル転送に特化した新しいトランスフォーマーモデルである \emph{master} を考案する。
一方,提案モデルでは,(1)パラメータの総数を減らし,(2)より堅牢なトレーニングコンバージェンスを実現し,(3)推論中に積み重ねられたレイヤの数を自由に調整することで,スタイリゼーションの度合いを制御できる。
一方、バニラ版と異なり、コンテンツスタイルの機能相互作用の前にコンテンツ機能に学習可能なスケーリング操作を導入し、コンテンツ機能間のオリジナルの類似性を保ちつつ、スタイリング品質を確保している。
また,提案モデルに対して,トランスフォーマーエンコーダ層を1つの特定のスタイルで微調整することによって,任意のスタイル転送の典型的な設定だけでなく,少数の設定にも適応できるように,新しいメタ学習方式を提案する。
テキストガイドによる数ショットスタイルの転送は、まず提案したフレームワークで実現される。
大規模な実験は、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。
関連論文リスト
- Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network [32.12413686394824]
スタイル転送は、オリジナルの構造を維持しながら、スタイルイメージの芸術的な特徴で画像をレンダリングすることを目的としている。
CNNベースの手法では、入力画像間の大域的情報と長距離依存関係を扱うことは困難である。
我々はPuff-Netと呼ばれる新しいネットワーク、すなわち純粋コンテンツとスタイルの機能融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T07:41:07Z) - Diffusion-based Human Motion Style Transfer with Semantic Guidance [23.600154466988073]
拡散モデルに基づく数ショットスタイルのトランスファー学習のための新しいフレームワークを提案する。
第1段階では,拡散に基づくテキスト・ツー・モーション・モデルを生成前として事前学習する。
第2段階では、単一スタイルの例に基づいて、事前学習した拡散モデルを数ショットで微調整し、スタイル転送を可能にする。
論文 参考訳(メタデータ) (2024-03-20T05:52:11Z) - STEER: Unified Style Transfer with Expert Reinforcement [71.3995732115262]
STEER: Unified Style Transfer with Expert Reinforcementは、スタイル転送のための限られた並列データという課題を克服するために開発された、統一されたフレームワークである。
STEERは堅牢で、ドメイン外のデータでスタイル転送機能を維持し、様々なスタイルでほぼすべてのベースラインを超越している。
論文 参考訳(メタデータ) (2023-11-13T09:02:30Z) - A Unified Arbitrary Style Transfer Framework via Adaptive Contrastive
Learning [84.8813842101747]
Unified Contrastive Arbitrary Style Transfer (UCAST)は、新しいスタイルの学習・伝達フレームワークである。
入力依存温度を導入することで,スタイル伝達のための適応型コントラスト学習方式を提案する。
本フレームワークは,スタイル表現とスタイル伝達のための並列コントラスト学習方式,スタイル分布を効果的に学習するためのドメイン拡張モジュール,スタイル伝達のための生成ネットワークという,3つの重要なコンポーネントから構成される。
論文 参考訳(メタデータ) (2023-03-09T04:35:00Z) - Line Search-Based Feature Transformation for Fast, Stable, and Tunable
Content-Style Control in Photorealistic Style Transfer [26.657485176782934]
フォトリアリスティックなスタイル転送は、ある画像からのコンテンツが他の画像のスタイルに現れるように適応する際に、現実的な外観のイメージを合成するタスクである。
モダンモデルは、コンテンツイメージとスタイルイメージを記述する機能を融合した変換を組み込み、その結果の機能をスタイリングされたイメージにデコードする。
コンテントの保存量と注入スタイルの強度のバランスを制御できる汎用変換を導入する。
論文 参考訳(メタデータ) (2022-10-12T08:05:49Z) - CCPL: Contrastive Coherence Preserving Loss for Versatile Style Transfer [58.020470877242865]
我々は,芸術的,写真的,映像的スタイルのトランスファーを共同で行うことができる汎用的なスタイルトランスファー手法を考案した。
我々は,グローバル不整合が局所的不整合に支配されているという軽度かつ合理的な仮定を定め,局所的パッチに適用した汎用的コントラストコヒーレンス保存損失(CCPL)を考案する。
CCPLは、スタイル化を低下させることなく、スタイル転送中のコンテンツソースのコヒーレンスを保存することができる。
論文 参考訳(メタデータ) (2022-07-11T12:09:41Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z) - Parameter-Free Style Projection for Arbitrary Style Transfer [64.06126075460722]
本稿では,パラメータフリー,高速,効果的なコンテンツスタイル変換のための特徴レベル変換手法であるStyle Projectionを提案する。
本稿では、任意の画像スタイルの転送にスタイル投影を利用するリアルタイムフィードフォワードモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T13:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。