論文の概要: Delving into Rectifiers in Style-Based Image Translation
- arxiv url: http://arxiv.org/abs/2111.10546v1
- Date: Sat, 20 Nov 2021 08:50:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-23 15:19:48.194476
- Title: Delving into Rectifiers in Style-Based Image Translation
- Title(参考訳): スタイルベース画像翻訳における整流子への埋め込み
- Authors: Yipeng Zhang, Bingliang Hu, Hailong Ning, Quang Wang
- Abstract要約: 画像合成の方向を制御する上で,アクティベーション関数が重要な要素の1つであることを示す。
スタイル制御性を改善するために,Adaptive ReLU (AdaReLU) と構造適応関数の2つの簡易かつ効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 14.070499865025877
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While modern image translation techniques can create photorealistic synthetic
images, they have limited style controllability, thus could suffer from
translation errors. In this work, we show that the activation function is one
of the crucial components in controlling the direction of image synthesis.
Specifically, we explicitly demonstrated that the slope parameters of the
rectifier could change the data distribution and be used independently to
control the direction of translation. To improve the style controllability, two
simple but effective techniques are proposed, including Adaptive ReLU (AdaReLU)
and structural adaptive function. The AdaReLU can dynamically adjust the slope
parameters according to the target style and can be utilized to increase the
controllability by combining with Adaptive Instance Normalization (AdaIN).
Meanwhile, the structural adaptative function enables rectifiers to manipulate
the structure of feature maps more effectively. It is composed of the proposed
structural convolution (StruConv), an efficient convolutional module that can
choose the area to be activated based on the mean and variance specified by
AdaIN. Extensive experiments show that the proposed techniques can greatly
increase the network controllability and output diversity in style-based image
translation tasks.
- Abstract(参考訳): 現代の画像翻訳技術はフォトリアリスティックな合成画像を作成することができるが、スタイル制御性は限られており、翻訳エラーに苦しむ可能性がある。
本研究では,画像合成の方向を制御する上で,活性化関数が重要な要素であることを示す。
具体的には、整流器の傾斜パラメータがデータ分布を変化させ、独立して翻訳の方向を制御することができることを示した。
スタイル制御性を改善するために,Adaptive ReLU (AdaReLU) と構造適応関数の2つの簡易かつ効果的な手法を提案する。
adareluはターゲットスタイルに応じて動的に傾斜パラメータを調整でき、適応インスタンス正規化(adain)と組み合わせることで制御性を高めることができる。
一方、構造適応関数により、整流器は特徴写像の構造をより効果的に操作できる。
提案する構造畳み込み(struconv)は、adainによって指定された平均と分散に基づいて活性化すべき領域を選択できる効率的な畳み込みモジュールである。
広範な実験により,提案手法は,スタイルに基づく画像翻訳タスクにおいて,ネットワーク制御性と出力多様性を著しく向上させることができることが示された。
関連論文リスト
- Unveil Inversion and Invariance in Flow Transformer for Versatile Image Editing [43.97960454977206]
本稿では,フロートランスを用いた拡散インバージョンと分散制御について解析する。
本稿では,まず速度推定を洗練し,残り誤差を補償する2段階逆転法を提案する。
この機構は、剛性および非剛性操作を許容しながら、非ターゲット内容の同時保存を可能にする。
論文 参考訳(メタデータ) (2024-11-24T13:48:16Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - ParGAN: Learning Real Parametrizable Transformations [50.51405390150066]
本稿では、画像変換学習のためのサイクル一貫性GANフレームワークの一般化であるParGANを提案する。
提案したジェネレータは、画像と変換のパラメトリゼーションの両方を入力とする。
注釈付きパラメトリゼーションを伴わない不整合画像領域では、このフレームワークはスムーズな生成が可能であり、同時に複数の変換を学習できることを示す。
論文 参考訳(メタデータ) (2022-11-09T16:16:06Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Attribute-specific Control Units in StyleGAN for Fine-grained Image
Manipulation [57.99007520795998]
特徴マップと変調スタイルの複数のチャネルからなる属性固有制御ユニットを探索する。
具体的には、制御ユニット内の変調スタイルのチャネルと特徴マップを協調的に操作し、意味的および空間的不整合制御を得る。
我々は、特定のスパース方向ベクトルに沿って変調スタイルを移動させ、これらの制御ユニットを操作するために特徴マップを計算するために使用されるフィルタワイズスタイルを置き換える。
論文 参考訳(メタデータ) (2021-11-25T10:42:10Z) - Style Intervention: How to Achieve Spatial Disentanglement with
Style-based Generators? [100.60938767993088]
任意の入力画像に適応し、フレキシブルな目的の下で自然な翻訳効果をレンダリングできる軽量な最適化アルゴリズムを提案する。
フォトリアリズムと一貫性の両方を必要とする高解像度画像の顔属性編集において,提案するフレームワークの性能を検証する。
論文 参考訳(メタデータ) (2020-11-19T07:37:31Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。