論文の概要: StyleFlow For Content-Fixed Image to Image Translation
- arxiv url: http://arxiv.org/abs/2207.01909v1
- Date: Tue, 5 Jul 2022 09:40:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-06 14:24:31.203967
- Title: StyleFlow For Content-Fixed Image to Image Translation
- Title(参考訳): コンテンツ固定画像から画像変換のためのスタイルフロー
- Authors: Weichen Fan, Jinghuan Chen, Jiabin Ma, Jun Hou, Shuai Yi
- Abstract要約: StyleFlowは、正規化フローと新しいStyle-Aware Normalization (SAN)モジュールで構成される新しいI2I翻訳モデルである。
我々のモデルは画像誘導翻訳とマルチモーダル合成の両方をサポートしている。
- 参考スコア(独自算出の注目度): 15.441136520005578
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Image-to-image (I2I) translation is a challenging topic in computer vision.
We divide this problem into three tasks: strongly constrained translation,
normally constrained translation, and weakly constrained translation. The
constraint here indicates the extent to which the content or semantic
information in the original image is preserved. Although previous approaches
have achieved good performance in weakly constrained tasks, they failed to
fully preserve the content in both strongly and normally constrained tasks,
including photo-realism synthesis, style transfer, and colorization, etc. To
achieve content-preserving transfer in strongly constrained and normally
constrained tasks, we propose StyleFlow, a new I2I translation model that
consists of normalizing flows and a novel Style-Aware Normalization (SAN)
module. With the invertible network structure, StyleFlow first projects input
images into deep feature space in the forward pass, while the backward pass
utilizes the SAN module to perform content-fixed feature transformation and
then projects back to image space. Our model supports both image-guided
translation and multi-modal synthesis. We evaluate our model in several I2I
translation benchmarks, and the results show that the proposed model has
advantages over previous methods in both strongly constrained and normally
constrained tasks.
- Abstract(参考訳): I2I(Image-to-image)翻訳はコンピュータビジョンにおいて難しいトピックである。
この問題を3つのタスクに分割する: 強い制約付き翻訳、通常制約付き翻訳、弱い制約付き翻訳。
ここでの制約は、元の画像における内容または意味情報が保存される程度を示す。
それまでのアプローチは、弱い制約のあるタスクで優れたパフォーマンスを達成していたが、フォトリアリズム合成、スタイル転送、カラー化など、強く、通常制約されたタスクのコンテンツを完全に保存できなかった。
制約の強いタスクにおいて,コンテンツ保存転送を実現するために,フローの正規化と新しいスタイルアウェア正規化(san)モジュールからなる新しいi2i翻訳モデルであるstyleflowを提案する。
非可逆的なネットワーク構造により、StyleFlowはまず前方パスの深い特徴空間にイメージを投影し、後方パスはSANモジュールを使用してコンテンツ修正された特徴変換を行い、その後イメージ空間に投影する。
本モデルは,画像誘導翻訳とマルチモーダル合成の両方をサポートする。
いくつかのI2I翻訳ベンチマークで本モデルを評価した結果,提案手法は制約が強いタスクと通常制約のあるタスクの両方において,従来の手法よりも優れていることがわかった。
関連論文リスト
- Translatotron-V(ison): An End-to-End Model for In-Image Machine Translation [81.45400849638347]
In-image Machine Translation (IIMT) は、ソース言語のテキストを含む画像をターゲット言語の翻訳を含む画像に変換することを目的としている。
本稿では,4つのモジュールからなるエンドツーエンドIIMTモデルを提案する。
本モデルでは,70.9%のパラメータしか持たないカスケードモデルと比較して競争性能が向上し,画素レベルのエンド・ツー・エンドIIMTモデルよりも大幅に優れていた。
論文 参考訳(メタデータ) (2024-07-03T08:15:39Z) - AnyTrans: Translate AnyText in the Image with Large Scale Models [88.5887934499388]
本稿では、画像中のタスク翻訳AnyText(TATI)のためのオール・エンコンパス・フレームワークであるAnyTransを紹介する。
我々のフレームワークは、翻訳中にテキスト要素と視覚要素の両方から文脈的手がかりを取り入れている。
6つの言語対の多言語テキスト画像翻訳データからなるMTIT6というテストデータセットを精巧にコンパイルした。
論文 参考訳(メタデータ) (2024-06-17T11:37:48Z) - Hierarchy Flow For High-Fidelity Image-to-Image Translation [38.87847690777645]
本稿では,翻訳中のコンテンツ保存性を向上する新しいフローベースモデルを提案する。
提案手法は,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精細度,高精
論文 参考訳(メタデータ) (2023-08-14T03:11:17Z) - Unsupervised Image-to-Image Translation with Generative Prior [103.54337984566877]
教師なし画像画像変換は、ペアデータなしで2つの視覚領域間の翻訳を学習することを目的としている。
本稿では,GP-UNIT(Generative Prior-guided UN Image-to-image Translation)という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-07T17:59:23Z) - Harnessing the Conditioning Sensorium for Improved Image Translation [2.9631016562930546]
マルチモーダル・ドメイン・トランスレーション(マルチモーダル・ドメイン・トランスレーション)は、通常、ある局所的な属性を「コンテンツ」イメージから継承する新しいイメージを指す。
本稿では,非絡み合った「コンテンツ」表現と「スタイル」表現をスクラッチから学習するための新しいアプローチを提案する。
既成モデルから抽出した条件情報に基づいて「コンテンツ」を定義する。
次に、再構成対象のセットを最適化し易い方法で、スタイル抽出器とイメージデコーダを訓練する。
論文 参考訳(メタデータ) (2021-10-13T02:07:43Z) - Unbalanced Feature Transport for Exemplar-based Image Translation [51.54421432912801]
本稿では,画像翻訳における条件入力とスタイルの類似点間の特徴的アライメントに最適なトランスポートを組み込んだ一般画像翻訳フレームワークを提案する。
本手法は,最先端技術と比較して質的,定量的に優れた画像翻訳を実現する。
論文 参考訳(メタデータ) (2021-06-19T12:07:48Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Unpaired Image-to-Image Translation via Latent Energy Transport [61.62293304236371]
画像から画像への変換は、2つの視覚領域間の識別的ターゲットスタイルに変換しながら、ソースの内容を保存することを目的としている。
本稿では,この課題に対して,事前訓練されたオートエンコーダの潜在空間にエネルギーベースモデル(EBM)を配置することを提案する。
我々のモデルは1024$times$1024- resolution unpaired image translationに適用できる最初のモデルである。
論文 参考訳(メタデータ) (2020-12-01T17:18:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。