論文の概要: Frequency Domain Image Translation: More Photo-realistic, Better
Identity-preserving
- arxiv url: http://arxiv.org/abs/2011.13611v3
- Date: Thu, 5 Aug 2021 03:33:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-20 02:13:21.309938
- Title: Frequency Domain Image Translation: More Photo-realistic, Better
Identity-preserving
- Title(参考訳): 周波数領域画像変換:よりフォトリアリスティックで、より良いアイデンティティ保存
- Authors: Mu Cai, Hong Zhang, Huijuan Huang, Qichuan Geng, Yixuan Li, Gao Huang
- Abstract要約: 本稿では,周波数情報を利用した新しい周波数領域画像翻訳フレームワークを提案する。
我々のキーとなる考え方は、画像を低周波および高周波の成分に分解することであり、そこでは、高周波の特徴がアイデンティティに似たオブジェクト構造をキャプチャする。
広汎な実験と改善により、FDITはソース画像のアイデンティティを効果的に保存し、フォトリアリスティック画像を生成する。
- 参考スコア(独自算出の注目度): 36.606114597585396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-to-image translation has been revolutionized with GAN-based methods.
However, existing methods lack the ability to preserve the identity of the
source domain. As a result, synthesized images can often over-adapt to the
reference domain, losing important structural characteristics and suffering
from suboptimal visual quality. To solve these challenges, we propose a novel
frequency domain image translation (FDIT) framework, exploiting frequency
information for enhancing the image generation process. Our key idea is to
decompose the image into low-frequency and high-frequency components, where the
high-frequency feature captures object structure akin to the identity. Our
training objective facilitates the preservation of frequency information in
both pixel space and Fourier spectral space. We broadly evaluate FDIT across
five large-scale datasets and multiple tasks including image translation and
GAN inversion. Extensive experiments and ablations show that FDIT effectively
preserves the identity of the source image, and produces photo-realistic
images. FDIT establishes state-of-the-art performance, reducing the average FID
score by 5.6% compared to the previous best method.
- Abstract(参考訳): 画像から画像への翻訳は、GANベースの方法によって革新されている。
しかし、既存のメソッドにはソースドメインのアイデンティティを保持する能力がない。
その結果、合成画像はしばしば参照領域に過度に適応し、重要な構造的特徴を失い、最適視品質に悩まされる。
これらの課題を解決するために,周波数情報を利用した新しい周波数領域画像変換(FDIT)フレームワークを提案する。
我々のキーとなる考え方は、画像を低周波および高周波の成分に分解することであり、そこでは、高周波の特徴がアイデンティティに似たオブジェクト構造をキャプチャする。
本研究の目的は、画素空間とフーリエスペクトル空間の両方における周波数情報の保存を容易にすることである。
FDITは5つの大規模データセットにまたがって広範に評価され、画像翻訳やGANインバージョンを含む複数のタスクをこなす。
広汎な実験と改善により、FDITはソース画像のアイデンティティを効果的に保存し、フォトリアリスティック画像を生成する。
FDITは最先端の性能を確立し、従来のベストメソッドと比較して平均FIDスコアを5.6%削減する。
関連論文リスト
- WaveFace: Authentic Face Restoration with Efficient Frequency Recovery [74.73492472409447]
拡散モデルは,1) 訓練の遅さと推論速度,2) アイデンティティの保存ときめ細かい顔の詳細の復元の失敗の2つの問題で批判されている。
本稿では,ウェーブレット変換によって分解される低周波・高周波成分を個別に考慮した周波数領域の問題を解決するためにWaveFaceを提案する。
本稿では、WaveFaceが、特にアイデンティティ保存の観点から、信頼性において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-03-19T14:27:24Z) - Spectrum Translation for Refinement of Image Generation (STIG) Based on
Contrastive Learning and Spectral Filter Profile [15.5188527312094]
生成した画像の周波数領域における相違を緩和する枠組みを提案する。
これは、コントラスト学習に基づく画像生成(STIG)の洗練のためのスペクトル変換によって実現される。
我々は,STIGの有効性を実証するために,8つのフェイク画像データセットと様々な最先端モデルにまたがるフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-03-08T06:39:24Z) - Misalignment-Robust Frequency Distribution Loss for Image Transformation [51.0462138717502]
本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
論文 参考訳(メタデータ) (2024-02-28T09:27:41Z) - Unified Frequency-Assisted Transformer Framework for Detecting and
Grounding Multi-Modal Manipulation [109.1912721224697]
本稿では、DGM4問題に対処するため、UFAFormerという名前のUnified Frequency-Assisted TransFormerフレームワークを提案する。
離散ウェーブレット変換を利用して、画像を複数の周波数サブバンドに分解し、リッチな顔偽造品をキャプチャする。
提案する周波数エンコーダは、帯域内およびバンド間自己アテンションを組み込んだもので、多種多様なサブバンド内および多種多様なフォージェリー特徴を明示的に集約する。
論文 参考訳(メタデータ) (2023-09-18T11:06:42Z) - A Scale-Arbitrary Image Super-Resolution Network Using Frequency-domain
Information [42.55177009667711]
画像超解像(SR)は、低分解能(LR)画像において失われた高周波情報を復元する技術である。
本稿では、周波数領域における画像の特徴を考察し、新しいスケール・アービタリー画像SRネットワークを設計する。
論文 参考訳(メタデータ) (2022-12-08T15:10:49Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。