論文の概要: WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image
Details
- arxiv url: http://arxiv.org/abs/2210.09655v1
- Date: Tue, 18 Oct 2022 07:48:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-19 14:22:04.245116
- Title: WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image
Details
- Title(参考訳): WaGI : ウェーブレットに基づく高頻度画像保存のためのGANインバージョン
- Authors: Seung-Jun Moon, Chaewon Kim, Gyeong-Moon Park
- Abstract要約: 本稿では,周波数特性を明示的に処理できる新しいGAN逆変換モデルWaGIを提案する。
WaGIは、既存の最先端のGANインバージョンモデルと比較して、インバージョンと編集の両方で優れた結果を示している。
- 参考スコア(独自算出の注目度): 7.541357996797061
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent GAN inversion models focus on preserving image-specific details
through various methods, e.g., generator tuning or feature mixing. While those
are helpful for preserving details compared to a naiive low-rate latent
inversion, they still fail to maintain high-frequency features precisely. In
this paper, we point out that the existing GAN inversion models have inherent
limitations in both structural and training aspects, which preclude the
delicate reconstruction of high-frequency features. Especially, we prove that
the widely-used loss term in GAN inversion, i.e., L2, is biased to reconstruct
low-frequency features mainly. To overcome this problem, we propose a novel GAN
inversion model, coined WaGI, which enables to handle high-frequency features
explicitly, by using a novel wavelet-based loss term and a newly proposed
wavelet fusion scheme. To the best of our knowledge, WaGI is the first attempt
to interpret GAN inversion in the frequency domain. We demonstrate that WaGI
shows outstanding results on both inversion and editing, compared to the
existing state-of-the-art GAN inversion models. Especially, WaGI robustly
preserves high-frequency features of images even in the editing scenario. We
will release our code with the pre-trained model after the review.
- Abstract(参考訳): 最近のGANインバージョンモデルは、ジェネレータチューニングや機能混合など、様々な方法で画像固有の詳細を保存することに重点を置いている。
これらは、内在的な低レート潜時反転と比較して詳細を保存するのに役立つが、高い周波数特性を正確に維持することができない。
本稿では,既存のGANインバージョンモデルが構造面と訓練面の両方に固有の制約があり,高周波特性の微妙な再構成を妨げていることを指摘する。
特に,GANインバージョンにおける損失項,すなわちL2は,主に低周波特性の再構成に偏っていることを示す。
この問題を解決するために,新しいウェーブレットベース損失項と新たに提案されたウェーブレット融合方式を用いて,周波数特性を明示的に処理できる新しいGANインバージョンモデルWaGIを提案する。
我々の知る限り、WAGIは周波数領域におけるGAN反転を解釈する最初の試みである。
従来のGANインバージョンモデルと比較して,WAGIはインバージョンと編集の両方において優れた結果を示す。
特に、WAGIは編集シナリオにおいても、画像の高周波特性を強く保存する。
レビューの後、トレーニング済みのモデルでコードをリリースします。
関連論文リスト
- Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。
本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。
本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文 参考訳(メタデータ) (2024-11-26T13:58:24Z) - Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。
既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。
本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文 参考訳(メタデータ) (2024-11-10T12:21:14Z) - Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。
FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。
包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文 参考訳(メタデータ) (2024-08-23T07:30:34Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete
Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。
高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。
本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文 参考訳(メタデータ) (2021-11-21T11:49:12Z) - High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。
低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。
高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文 参考訳(メタデータ) (2021-09-14T11:23:48Z) - Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。
本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。
低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文 参考訳(メタデータ) (2021-08-03T12:26:33Z) - Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。
フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。
訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文 参考訳(メタデータ) (2021-06-01T20:34:52Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。