Fugu-MT 論文翻訳(概要): WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image Details

論文の概要: WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image Details

arxiv url: http://arxiv.org/abs/2210.09655v1
Date: Tue, 18 Oct 2022 07:48:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-19 14:22:04.245116
Title: WaGI : Wavelet-based GAN Inversion for Preserving High-frequency Image Details
Title（参考訳）: WaGI : ウェーブレットに基づく高頻度画像保存のためのGANインバージョン
Authors: Seung-Jun Moon, Chaewon Kim, Gyeong-Moon Park
Abstract要約: 本稿では,周波数特性を明示的に処理できる新しいGAN逆変換モデルWaGIを提案する。 WaGIは、既存の最先端のGANインバージョンモデルと比較して、インバージョンと編集の両方で優れた結果を示している。
参考スコア（独自算出の注目度）: 7.541357996797061
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent GAN inversion models focus on preserving image-specific details through various methods, e.g., generator tuning or feature mixing. While those are helpful for preserving details compared to a naiive low-rate latent inversion, they still fail to maintain high-frequency features precisely. In this paper, we point out that the existing GAN inversion models have inherent limitations in both structural and training aspects, which preclude the delicate reconstruction of high-frequency features. Especially, we prove that the widely-used loss term in GAN inversion, i.e., L2, is biased to reconstruct low-frequency features mainly. To overcome this problem, we propose a novel GAN inversion model, coined WaGI, which enables to handle high-frequency features explicitly, by using a novel wavelet-based loss term and a newly proposed wavelet fusion scheme. To the best of our knowledge, WaGI is the first attempt to interpret GAN inversion in the frequency domain. We demonstrate that WaGI shows outstanding results on both inversion and editing, compared to the existing state-of-the-art GAN inversion models. Especially, WaGI robustly preserves high-frequency features of images even in the editing scenario. We will release our code with the pre-trained model after the review.
Abstract（参考訳）: 最近のGANインバージョンモデルは、ジェネレータチューニングや機能混合など、様々な方法で画像固有の詳細を保存することに重点を置いている。これらは、内在的な低レート潜時反転と比較して詳細を保存するのに役立つが、高い周波数特性を正確に維持することができない。本稿では,既存のGANインバージョンモデルが構造面と訓練面の両方に固有の制約があり,高周波特性の微妙な再構成を妨げていることを指摘する。特に,GANインバージョンにおける損失項,すなわちL2は,主に低周波特性の再構成に偏っていることを示す。この問題を解決するために,新しいウェーブレットベース損失項と新たに提案されたウェーブレット融合方式を用いて,周波数特性を明示的に処理できる新しいGANインバージョンモデルWaGIを提案する。我々の知る限り、WAGIは周波数領域におけるGAN反転を解釈する最初の試みである。従来のGANインバージョンモデルと比較して,WAGIはインバージョンと編集の両方において優れた結果を示す。特に、WAGIは編集シナリオにおいても、画像の高周波特性を強く保存する。レビューの後、トレーニング済みのモデルでコードをリリースします。

関連論文リスト

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文参考訳（メタデータ） (2025-06-25T13:58:37Z)
Frequency-Domain Fusion Transformer for Image Inpainting [6.4194162137514725]
本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
論文参考訳（メタデータ） (2025-06-23T09:19:04Z)
Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文参考訳（メタデータ） (2025-06-19T13:28:09Z)
Wavelet-based Variational Autoencoders for High-Resolution Image Generation [0.0]
変分オートエンコーダ(VAE)は、コンパクトな潜在表現を学習できる強力な生成モデルである。本稿では,マルチスケールのハールウェーブレット係数を用いて潜在空間を構築するウェーブレットベースアプローチ(ウェーブレット-VAE)について検討する。
論文参考訳（メタデータ） (2025-04-16T13:51:41Z)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳（メタデータ） (2025-03-16T12:32:11Z)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳（メタデータ） (2024-11-26T13:58:24Z)
Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文参考訳（メタデータ） (2024-11-10T12:21:14Z)
Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。 FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文参考訳（メタデータ） (2024-08-23T07:30:34Z)
HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文参考訳（メタデータ） (2023-11-30T02:33:29Z)
Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文参考訳（メタデータ） (2023-09-19T16:01:20Z)
Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文参考訳（メタデータ） (2022-09-26T03:28:23Z)
FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文参考訳（メタデータ） (2021-11-21T11:49:12Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)
Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文参考訳（メタデータ） (2021-08-03T12:26:33Z)
Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文参考訳（メタデータ） (2021-06-01T20:34:52Z)
Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文参考訳（メタデータ） (2020-12-23T17:32:04Z)
Progressive Training of Multi-level Wavelet Residual Networks for Image Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文参考訳（メタデータ） (2020-10-23T14:14:00Z)
Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。 VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文参考訳（メタデータ） (2020-05-07T09:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。