Fugu-MT 論文翻訳(概要): WINE: Wavelet-Guided GAN Inversion and Editing for High-Fidelity Refinement

論文の概要: WINE: Wavelet-Guided GAN Inversion and Editing for High-Fidelity Refinement

arxiv url: http://arxiv.org/abs/2210.09655v2
Date: Tue, 14 Jan 2025 14:22:05 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-15 19:03:22.717599
Title: WINE: Wavelet-Guided GAN Inversion and Editing for High-Fidelity Refinement
Title（参考訳）: WINE:ウェーブレット型GANインバージョンと高精細化のための編集
Authors: Chaewon Kim, Seung-Jun Moon, Gyeong-Moon Park,
Abstract要約: WINEはウェーブレット誘導GAN反転aNd編集モデルであり、ウェーブレット係数を介して高周波情報を転送する。 WINEは、編集性と復元品質の微妙なバランスを保ち、既存の最先端のGANインバージョンモデルより優れていることを示す。
参考スコア（独自算出の注目度）: 9.517232831394459
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advanced GAN inversion models aim to convey high-fidelity information from original images to generators through methods using generator tuning or high-dimensional feature learning. Despite these efforts, accurately reconstructing image-specific details remains as a challenge due to the inherent limitations both in terms of training and structural aspects, leading to a bias towards low-frequency information. In this paper, we look into the widely used pixel loss in GAN inversion, revealing its predominant focus on the reconstruction of low-frequency features. We then propose WINE, a Wavelet-guided GAN Inversion aNd Editing model, which transfers the high-frequency information through wavelet coefficients via newly proposed wavelet loss and wavelet fusion scheme. Notably, WINE is the first attempt to interpret GAN inversion in the frequency domain. Our experimental results showcase the precision of WINE in preserving high-frequency details and enhancing image quality. Even in editing scenarios, WINE outperforms existing state-of-the-art GAN inversion models with a fine balance between editability and reconstruction quality.
Abstract（参考訳）: 近年のGANインバージョンモデルは、ジェネレータチューニングや高次元特徴学習を用いて、原画像からの高忠実度情報をジェネレータに伝達することを目的としている。これらの努力にもかかわらず、トレーニングと構造面の両方に固有の制限があるため、画像固有の詳細を正確に再構築することは、低周波情報へのバイアスをもたらす。本稿では,GANインバージョンにおける広範に用いられている画素損失を考察し,低周波特徴の再構成に主眼を置いていることを示す。次に、ウェーブレット誘導GAN反転aNd編集モデルであるWINEを提案し、新たに提案されたウェーブレット損失とウェーブレット融合スキームを介してウェーブレット係数を介して高周波情報を転送する。特に、WINE は周波数領域における GAN の反転を解釈する最初の試みである。実験結果から,WINEの高精度な高周波数情報保存と画質向上効果が示された。編集シナリオにおいても、WINEは既存の最先端のGANインバージョンモデルよりも、編集可能性と再構築品質のバランスが良くなっている。

関連論文リスト

HiWave: Training-Free High-Resolution Image Generation via Wavelet-Based Diffusion Sampling [1.9474278832087901]
HiWaveは、超高解像度画像合成における視覚的忠実度と構造的コヒーレンスを大幅に向上させる、トレーニング不要でゼロショットのアプローチである。ユーザによる調査では、HiWaveのパフォーマンスが80%以上の比較で最先端の代替品よりも好まれていたことが確認された。
論文参考訳（メタデータ） (2025-06-25T13:58:37Z)
Frequency-Domain Fusion Transformer for Image Inpainting [6.4194162137514725]
本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
論文参考訳（メタデータ） (2025-06-23T09:19:04Z)
Learning Multi-scale Spatial-frequency Features for Image Denoising [58.883244886588336]
本稿では,マルチスケール適応型デュアルドメインネットワーク(MADNet)を提案する。画像ピラミッド入力を用いて低解像度画像からノイズのない結果を復元する。高周波情報と低周波情報の相互作用を実現するために,適応型空間周波数学習ユニットを設計する。
論文参考訳（メタデータ） (2025-06-19T13:28:09Z)
Wavelet-based Variational Autoencoders for High-Resolution Image Generation [0.0]
変分オートエンコーダ(VAE)は、コンパクトな潜在表現を学習できる強力な生成モデルである。本稿では,マルチスケールのハールウェーブレット係数を用いて潜在空間を構築するウェーブレットベースアプローチ(ウェーブレット-VAE)について検討する。
論文参考訳（メタデータ） (2025-04-16T13:51:41Z)
SING: Semantic Image Communications using Null-Space and INN-Guided Diffusion Models [52.40011613324083]
近年, 無線画像伝送において, 共用音源チャネル符号化システム (DeepJSCC) が顕著な性能を発揮している。既存の手法では、送信された画像とレシーバーの再構成されたバージョンとの間の歪みを最小限に抑えることに重点を置いており、しばしば知覚的品質を見落としている。逆問題として,破損した再構成画像から高品質な画像の復元を定式化する新しいフレームワークであるSINGを提案する。
論文参考訳（メタデータ） (2025-03-16T12:32:11Z)
Identity-Preserving Text-to-Video Generation by Frequency Decomposition [52.19475797580653]
アイデンティティ保存型テキスト・ツー・ビデオ(IPT2V)生成は、一貫した人間のアイデンティティを持つ高忠実度ビデオを作成することを目的としている。本稿では,PT2Vの技術フロンティアを,文献で未解決の2つの方向に推し進める。本研究では,DiTをベースとした制御可能なPT2VモデルであるConsisIDを提案する。
論文参考訳（メタデータ） (2024-11-26T13:58:24Z)
Local Implicit Wavelet Transformer for Arbitrary-Scale Super-Resolution [15.610136214020947]
暗黙の神経表現は、最近、画像の任意のスケールの超解像(SR)において有望な可能性を証明している。既存のほとんどの手法は、クエリされた座標と近くの特徴のアンサンブルに基づいて、SR画像中のピクセルを予測する。本稿では,高周波テクスチャの再現性を高めるために,LIWT(Local Implicit Wavelet Transformer)を提案する。
論文参考訳（メタデータ） (2024-11-10T12:21:14Z)
Frequency-aware Feature Fusion for Dense Image Prediction [99.85757278772262]
本稿では,高密度画像予測のための周波数認識機能融合(FreqFusion)を提案する。 FreqFusionは、Adaptive Low-Pass Filter (ALPF) ジェネレータ、オフセットジェネレータ、Adaptive High-Pass Filter (AHPF) ジェネレータを統合する。包括的可視化と定量的分析は、FreqFusionが機能一貫性を効果的に改善し、オブジェクト境界を鋭くすることを示している。
論文参考訳（メタデータ） (2024-08-23T07:30:34Z)
HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文参考訳（メタデータ） (2023-11-30T02:33:29Z)
Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文参考訳（メタデータ） (2023-09-19T16:01:20Z)
Multi-stage image denoising with the wavelet transform [125.2251438120701]
深部畳み込みニューラルネットワーク(Deep Convolutional Neural Network, CNN)は、正確な構造情報を自動マイニングすることで、画像の復調に使用される。動的畳み込みブロック(DCB)、2つのカスケードウェーブレット変換および拡張ブロック(WEB)、残留ブロック(RB)の3段階を経由した、MWDCNNによるCNNの多段階化を提案する。
論文参考訳（メタデータ） (2022-09-26T03:28:23Z)
FreqNet: A Frequency-domain Image Super-Resolution Network with Dicrete Cosine Transform [16.439669339293747]
単一画像超解像(SISR)は低分解能(LR)入力から高分解能(HR)出力を得ることを目的とした不適切な問題である。高ピーク信号-雑音比(PSNR)の結果にもかかわらず、モデルが望まれる高周波の詳細を正しく付加するかどうかを判断することは困難である。本稿では、周波数領域の観点から直感的なパイプラインであるFreqNetを提案し、この問題を解決する。
論文参考訳（メタデータ） (2021-11-21T11:49:12Z)
High-Fidelity GAN Inversion for Image Attribute Editing [61.966946442222735]
本稿では,画像固有の詳細をよく保存した属性編集を可能にする,GAN(High-fidelity Generative Adversarial Network)インバージョンフレームワークを提案する。低ビットレートの遅延符号では、再構成された画像や編集された画像の高忠実度の詳細を保存することは困難である。高忠実度復元のための基準として歪みマップを用いる歪みコンサルテーション手法を提案する。
論文参考訳（メタデータ） (2021-09-14T11:23:48Z)
Wavelet-Based Network For High Dynamic Range Imaging [64.66969585951207]
光学フローベースやエンド・ツー・エンドのディープラーニングベースのソリューションのような既存の方法は、詳細な復元やゴーストを除去する際にエラーを起こしやすい。本研究では、周波数領域でHDR融合を行うための新しい周波数誘導型エンド・ツー・エンドディープニューラルネットワーク(FNet)を提案し、ウェーブレット変換(DWT)を用いて入力を異なる周波数帯域に分解する。低周波信号は特定のゴーストアーティファクトを避けるために使用され、高周波信号は詳細を保存するために使用される。
論文参考訳（メタデータ） (2021-08-03T12:26:33Z)
Fourier Space Losses for Efficient Perceptual Image Super-Resolution [131.50099891772598]
提案した損失関数の適用のみで,最近導入された効率的なジェネレータアーキテクチャの性能向上が可能であることを示す。フーリエ空間における周波数に対する損失の直接的強調は知覚的画質を著しく向上させることを示す。訓練されたジェネレータは、最先端の知覚的SR法である RankSRGAN と SRFlow よりも2.4倍、48倍高速である。
論文参考訳（メタデータ） (2021-06-01T20:34:52Z)
Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文参考訳（メタデータ） (2020-12-23T17:32:04Z)
Progressive Training of Multi-level Wavelet Residual Networks for Image Denoising [80.10533234415237]
本稿では,マルチレベルウェーブレット残差ネットワーク(MWRN)アーキテクチャと,画像復調性能向上のためのプログレッシブトレーニング手法を提案する。人工ノイズ画像と実世界のノイズ画像の両方で実験したところ、PT-MWRNは最先端のノイズ評価法に対して良好に機能することがわかった。
論文参考訳（メタデータ） (2020-10-23T14:14:00Z)
Wavelet Integrated CNNs for Noise-Robust Image Classification [51.18193090255933]
我々は、離散ウェーブレット変換(DWT)により、最大プール、ストライド畳み込み、平均プールを置き換えることでCNNを強化する。 VGG、ResNets、DenseNetのウェーブレット統合バージョンであるWaveCNetsは、バニラバージョンよりも精度が高く、ノイズ・ロバスト性も向上している。
論文参考訳（メタデータ） (2020-05-07T09:10:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。