論文の概要: Unsupervised Structure-Consistent Image-to-Image Translation
- arxiv url: http://arxiv.org/abs/2208.11546v1
- Date: Wed, 24 Aug 2022 13:47:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-25 12:59:13.360388
- Title: Unsupervised Structure-Consistent Image-to-Image Translation
- Title(参考訳): 教師なし構造整合画像から画像への変換
- Authors: Shima Shahfar and Charalambos Poullis
- Abstract要約: Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は、勾配反転層に基づく単純で効果的な補助モジュールを導入することにより、この作業を改善する。
補助モジュールの損失は、ジェネレータが全ゼロテクスチャコードでイメージを再構築することを学ぶことを強制する。
- 参考スコア(独自算出の注目度): 6.282068591820945
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The Swapping Autoencoder achieved state-of-the-art performance in deep image
manipulation and image-to-image translation. We improve this work by
introducing a simple yet effective auxiliary module based on gradient reversal
layers. The auxiliary module's loss forces the generator to learn to
reconstruct an image with an all-zero texture code, encouraging better
disentanglement between the structure and texture information. The proposed
attribute-based transfer method enables refined control in style transfer while
preserving structural information without using a semantic mask. To manipulate
an image, we encode both the geometry of the objects and the general style of
the input images into two latent codes with an additional constraint that
enforces structure consistency. Moreover, due to the auxiliary loss, training
time is significantly reduced. The superiority of the proposed model is
demonstrated in complex domains such as satellite images where state-of-the-art
are known to fail. Lastly, we show that our model improves the quality metrics
for a wide range of datasets while achieving comparable results with
multi-modal image generation techniques.
- Abstract(参考訳): Swapping Autoencoderは、ディープイメージ操作と画像から画像への変換において最先端のパフォーマンスを達成した。
我々は,勾配反転層に基づく簡易かつ効果的な補助モジュールを導入することにより,この作業を改善する。
補助モジュールの損失により、ジェネレータは全ゼロテクスチャコードでイメージを再構築することを学び、構造とテクスチャ情報のより良いアンタングルを奨励する。
提案手法は, 意味マスクを用いずに構造情報を保存しつつ, 洗練されたスタイル伝達制御を可能にする。
画像を操作するために、オブジェクトの幾何学と入力画像の一般的なスタイルの両方を2つの潜在符号に符号化し、構造整合性を強制する制約を加える。
また、補助損失により、トレーニング時間が大幅に短縮される。
提案されたモデルの優位性は、最新技術が失敗することがわかっている衛星画像のような複雑な領域で実証される。
最後に,本モデルは,マルチモーダル画像生成手法を用いて比較結果を得るとともに,幅広いデータセットの品質指標を改善できることを示す。
関連論文リスト
- ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Mixed Hierarchy Network for Image Restoration [0.0]
画像復元における品質とシステムの複雑さのバランスをとることができる混合階層ネットワークを提案する。
我々のモデルはまずエンコーダ・デコーダアーキテクチャを用いて文脈情報を学習し,次に空間的詳細を保存する高分解能分岐と組み合わせる。
その結果、MHNetという名前の密接な相互接続階層アーキテクチャは、いくつかのイメージ復元タスクにおいて、強力なパフォーマンス向上をもたらす。
論文 参考訳(メタデータ) (2023-02-19T12:18:45Z) - Progressive with Purpose: Guiding Progressive Inpainting DNNs through
Context and Structure [0.0]
本稿では,処理された画像の構造的・文脈的整合性を維持する新しい塗装ネットワークを提案する。
ガウスピラミッドとラプラシアピラミッドに触発されたこのネットワークのコアは、GLEと呼ばれる特徴抽出モジュールである。
ベンチマーク実験により, 提案手法は, 多くの最先端の塗装アルゴリズムに対して, 性能の向上を図っている。
論文 参考訳(メタデータ) (2022-09-21T02:15:02Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z) - SDWNet: A Straight Dilated Network with Wavelet Transformation for Image
Deblurring [23.86692375792203]
画像劣化は、ぼやけた画像から鋭い画像を復元することを目的としたコンピュータビジョンの問題である。
我々のモデルは拡張畳み込みを用いて空間分解能の高い大きな受容場を得ることができる。
本稿では,ウェーブレット変換を用いた新しいモジュールを提案する。
論文 参考訳(メタデータ) (2021-10-12T07:58:10Z) - Semantic Layout Manipulation with High-Resolution Sparse Attention [106.59650698907953]
本稿では,意味ラベルマップを編集して入力画像を操作するセマンティックイメージレイアウト操作の課題に対処する。
このタスクの中核的な問題は、視覚的にイメージを現実的にしながら、入力画像から新しいセマンティックレイアウトに視覚的な詳細を転送する方法です。
512×512の解像度で視覚的詳細を新しいレイアウトに効果的に転送する高分解能スパースアテンションモジュールを提案する。
論文 参考訳(メタデータ) (2020-12-14T06:50:43Z) - TSIT: A Simple and Versatile Framework for Image-to-Image Translation [103.92203013154403]
画像間翻訳のためのシンプルで多用途なフレームワークを提案する。
新たに提案した特徴変換を用いた2ストリーム生成モデルを提案する。
これにより、マルチスケールのセマンティック構造情報とスタイル表現を効果的に捕捉し、ネットワークに融合させることができる。
体系的な研究は、提案手法をいくつかの最先端タスク固有のベースラインと比較し、知覚的品質と定量的評価の両面での有効性を検証する。
論文 参考訳(メタデータ) (2020-07-23T15:34:06Z) - Region-adaptive Texture Enhancement for Detailed Person Image Synthesis [86.69934638569815]
RATE-Netは、シャープなテクスチャで人物画像を合成するための新しいフレームワークである。
提案するフレームワークは,テクスチャ強化モジュールを利用して,画像から外観情報を抽出する。
DeepFashionベンチマークデータセットで実施された実験は、既存のネットワークと比較して、我々のフレームワークの優位性を実証した。
論文 参考訳(メタデータ) (2020-05-26T02:33:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。