論文の概要: TSIT: A Simple and Versatile Framework for Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2007.12072v2
- Date: Sat, 25 Jul 2020 11:20:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 12:20:43.393564
- Title: TSIT: A Simple and Versatile Framework for Image-to-Image Translation
- Title(参考訳): TSIT:画像間翻訳のためのシンプルでヴァーサタイルなフレームワーク
- Authors: Liming Jiang, Changxu Zhang, Mingyang Huang, Chunxiao Liu, Jianping
Shi, Chen Change Loy
- Abstract要約: 画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
- 参考スコア(独自算出の注目度): 103.92203013154403
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce a simple and versatile framework for image-to-image translation.
We unearth the importance of normalization layers, and provide a carefully
designed two-stream generative model with newly proposed feature
transformations in a coarse-to-fine fashion. This allows multi-scale semantic
structure information and style representation to be effectively captured and
fused by the network, permitting our method to scale to various tasks in both
unsupervised and supervised settings. No additional constraints (e.g., cycle
consistency) are needed, contributing to a very clean and simple method.
Multi-modal image synthesis with arbitrary style control is made possible. A
systematic study compares the proposed method with several state-of-the-art
task-specific baselines, verifying its effectiveness in both perceptual quality
and quantitative evaluations.
- Abstract(参考訳): 画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
我々は,正規化層の重要性を把握し,新たに提案された特徴変換を粗大に表現した2ストリーム生成モデルを提案する。
これにより、マルチスケールな意味構造情報とスタイル表現をネットワークによって効果的にキャプチャ・融合することができ、教師なし設定と教師なし設定の両方で様々なタスクにスケールできる。
追加の制約(例えば、サイクル整合性)は不要で、非常にクリーンで単純なメソッドに寄与する。
任意のスタイル制御によるマルチモーダル画像合成が可能となる。
体系的な研究では,提案手法と最先端タスク固有ベースラインを比較し,知覚的品質と定量的評価の両方においてその効果を検証した。
関連論文リスト
- Towards Self-Supervised FG-SBIR with Unified Sample Feature Alignment and Multi-Scale Token Recycling [11.129453244307369]
FG-SBIRは、埋め込み空間におけるスケッチと対応する画像の距離を最小化することを目的としている。
両領域間のギャップを狭める効果的なアプローチを提案する。
主に、イントラサンプルとインターサンプルの両方を共有する統一的な相互情報共有を促進する。
論文 参考訳(メタデータ) (2024-06-17T13:49:12Z) - Layered Rendering Diffusion Model for Zero-Shot Guided Image Synthesis [60.260724486834164]
本稿では,テキストクエリに依存する拡散モデルにおける空間制御性向上のための革新的な手法を提案する。
視覚誘導(Vision Guidance)とレイヤーレンダリング拡散(Layered Rendering Diffusion)フレームワーク(Layered Diffusion)という2つの重要なイノベーションを提示します。
本稿では,ボックス・ツー・イメージ,セマンティック・マスク・ツー・イメージ,画像編集の3つの実践的応用に適用する。
論文 参考訳(メタデータ) (2023-11-30T10:36:19Z) - Cones 2: Customizable Image Synthesis with Multiple Subjects [50.54010141032032]
本研究では,特定の対象を効率的に表現する方法と,異なる対象を適切に構成する方法について検討する。
クロスアテンションマップ内のアクティベーションを修正することにより、レイアウトはイメージ内の異なる被写体の位置を指定して分離する。
論文 参考訳(メタデータ) (2023-05-30T18:00:06Z) - Single Stage Virtual Try-on via Deformable Attention Flows [51.70606454288168]
仮想試行は、ショップ内服と基準人物画像が与えられた写真リアルなフィッティング結果を生成することを目的としている。
マルチフロー推定に変形性アテンションスキームを適用した,変形性アテンションフロー(DAFlow)を新たに開発した。
提案手法は,定性的かつ定量的に最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-07-19T10:01:31Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Concurrently Extrapolating and Interpolating Networks for Continuous
Model Generation [34.72650269503811]
本稿では,一組の特定効果ラベル画像のみを必要とするモデル列を形成するための,シンプルで効果的なモデル生成戦略を提案する。
提案手法は一連の連続モデルの生成が可能であり,画像平滑化のための最先端手法よりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-01-12T04:44:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。