論文の概要: StyTr^2: Unbiased Image Style Transfer with Transformers
- arxiv url: http://arxiv.org/abs/2105.14576v1
- Date: Sun, 30 May 2021 15:57:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 10:18:42.328899
- Title: StyTr^2: Unbiased Image Style Transfer with Transformers
- Title(参考訳): StyTr^2: トランスフォーマーを用いた画像スタイル転送
- Authors: Yingying Deng and Fan Tang and Xingjia Pan, Weiming Dong and
ChongyangMa and Changsheng Xu
- Abstract要約: イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
- 参考スコア(独自算出の注目度): 59.34108877969477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The goal of image style transfer is to render an image with artistic features
guided by a style reference while maintaining the original content. Due to the
locality and spatial invariance in CNNs, it is difficult to extract and
maintain the global information of input images. Therefore, traditional neural
style transfer methods are usually biased and content leak can be observed by
running several times of the style transfer process with the same reference
style image. To address this critical issue, we take long-range dependencies of
input images into account for unbiased style transfer by proposing a
transformer-based approach, namely StyTr^2. In contrast with visual
transformers for other vision tasks, our StyTr^2 contains two different
transformer encoders to generate domain-specific sequences for content and
style, respectively. Following the encoders, a multi-layer transformer decoder
is adopted to stylize the content sequence according to the style sequence. In
addition, we analyze the deficiency of existing positional encoding methods and
propose the content-aware positional encoding (CAPE) which is scale-invariant
and more suitable for image style transfer task. Qualitative and quantitative
experiments demonstrate the effectiveness of the proposed StyTr^2 compared to
state-of-the-art CNN-based and flow-based approaches.
- Abstract(参考訳): 画像スタイル転送の目標は、オリジナルコンテンツを維持しながら、スタイル参照による芸術的特徴を持った画像をレンダリングすることである。
CNNの局所性と空間的不変性のため、入力画像のグローバルな情報を抽出・維持することは困難である。
したがって、従来のニューラルスタイル転送法は通常偏りがあり、同じ参照スタイルイメージでスタイル転送処理を複数回実行することでコンテンツリークを観測することができる。
この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr^2を提案することにより、入力画像の長距離依存性を非バイアスなスタイル転送を考慮した。
他の視覚タスクの視覚変換器とは対照的に、StyTr^2には2つの異なる変換器エンコーダがあり、それぞれコンテンツとスタイルのドメイン固有シーケンスを生成する。
エンコーダに続いて、スタイルシーケンスに従ってコンテンツシーケンスをスタイリングするために多層トランスフォーマーデコーダが採用される。
さらに、既存の位置符号化手法の欠如を分析し、スケール不変で画像スタイルの転送作業に適しているコンテンツ認識位置符号化(CAPE)を提案する。
定性的かつ定量的な実験により,提案したStyTr^2の有効性を,最先端CNNおよびフローベースアプローチと比較した。
関連論文リスト
- SwinStyleformer is a favorable choice for image inversion [2.8115030277940947]
本稿では,SwinStyleformerと呼ばれるトランスフォーマー構造インバージョンネットワークを提案する。
実験の結果、トランスフォーマーのバックボーンによるインバージョンネットワークは、画像の反転に成功しなかった。
論文 参考訳(メタデータ) (2024-06-19T02:08:45Z) - Puff-Net: Efficient Style Transfer with Pure Content and Style Feature Fusion Network [32.12413686394824]
スタイル転送は、オリジナルの構造を維持しながら、スタイルイメージの芸術的な特徴で画像をレンダリングすることを目的としている。
CNNベースの手法では、入力画像間の大域的情報と長距離依存関係を扱うことは困難である。
我々はPuff-Netと呼ばれる新しいネットワーク、すなわち純粋コンテンツとスタイルの機能融合ネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-30T07:41:07Z) - Improving the Transferability of Adversarial Examples with Arbitrary
Style Transfer [32.644062141738246]
スタイル転送ネットワークは、人間の意味的内容を保持しながら、画像内の低レベルの視覚的特徴の分布を変更することができる。
本稿では、任意のスタイル転送ネットワークを用いて、画像を異なる領域に変換する新たな攻撃手法であるStyle Transfer Method (STM)を提案する。
提案手法は、通常訓練されたモデルまたは逆訓練されたモデルにおいて、逆変換性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-08-21T09:58:13Z) - Master: Meta Style Transformer for Controllable Zero-Shot and Few-Shot
Artistic Style Transfer [83.1333306079676]
本稿では,スタイル転送に特化した新しいトランスフォーマーモデルであるemphMasterを考案する。
提案モデルでは, 異なるトランスフォーマー層が共通のパラメータ群を共有し, 1) パラメータの総数を減らし, (2) より堅牢なトレーニング収束をもたらし, (3) は容易にスタイリングの程度を制御できる。
実験では、ゼロショットと少数ショットスタイルの転送設定の両方でMasterの優位性を示す。
論文 参考訳(メタデータ) (2023-04-24T04:46:39Z) - DiffStyler: Controllable Dual Diffusion for Text-Driven Image
Stylization [66.42741426640633]
DiffStylerは、拡散された結果の内容とスタイルのバランスを制御するための二重拡散処理アーキテクチャである。
本稿では、逆復調処理をベースとしたコンテンツ画像に基づく学習可能なノイズを提案し、そのスタイリング結果により、コンテンツ画像の構造情報をよりよく保存する。
論文 参考訳(メタデータ) (2022-11-19T12:30:44Z) - Line Search-Based Feature Transformation for Fast, Stable, and Tunable
Content-Style Control in Photorealistic Style Transfer [26.657485176782934]
フォトリアリスティックなスタイル転送は、ある画像からのコンテンツが他の画像のスタイルに現れるように適応する際に、現実的な外観のイメージを合成するタスクである。
モダンモデルは、コンテンツイメージとスタイルイメージを記述する機能を融合した変換を組み込み、その結果の機能をスタイリングされたイメージにデコードする。
コンテントの保存量と注入スタイルの強度のバランスを制御できる汎用変換を導入する。
論文 参考訳(メタデータ) (2022-10-12T08:05:49Z) - Fine-Grained Image Style Transfer with Visual Transformers [59.85619519384446]
本稿では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。
STTRと既存のアプローチを比較するために,Amazon Mechanical Turkのユーザスタディを実施している。
論文 参考訳(メタデータ) (2022-10-11T06:26:00Z) - Diffusion-based Image Translation using Disentangled Style and Content
Representation [51.188396199083336]
セマンティックテキストや単一のターゲット画像でガイドされた拡散ベースの画像変換により、柔軟なスタイル変換が可能になった。
逆拡散中、画像の原内容を維持することはしばしば困難である。
本稿では,不整合スタイルとコンテンツ表現を用いた新しい拡散に基づく教師なし画像翻訳手法を提案する。
提案手法は,テキスト誘導と画像誘導の両方の翻訳作業において,最先端のベースラインモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-09-30T06:44:37Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。