論文の概要: Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN
- arxiv url: http://arxiv.org/abs/2508.03415v1
- Date: Tue, 05 Aug 2025 12:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-06 18:18:55.973346
- Title: Learning Latent Representations for Image Translation using Frequency Distributed CycleGAN
- Title(参考訳): 周波数分散サイクルGANを用いた画像翻訳における遅延表現の学習
- Authors: Shivangi Nigam, Adarsh Prasad Behera, Shekhar Verma, P. Nagabhushan,
- Abstract要約: Fd-CycleGANはイメージ・ツー・イメージ(I2I)翻訳フレームワークであり、遅延表現学習を強化して実データ分布を近似する。
Horse2Zebra、Monet2Photo、および合成強化されたStrike-offデータセットなど、さまざまなデータセットに関する実験を行います。
その結果,周波数誘導型潜時学習は画像翻訳タスクの一般化を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 7.610968152027164
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: This paper presents Fd-CycleGAN, an image-to-image (I2I) translation framework that enhances latent representation learning to approximate real data distributions. Building upon the foundation of CycleGAN, our approach integrates Local Neighborhood Encoding (LNE) and frequency-aware supervision to capture fine-grained local pixel semantics while preserving structural coherence from the source domain. We employ distribution-based loss metrics, including KL/JS divergence and log-based similarity measures, to explicitly quantify the alignment between real and generated image distributions in both spatial and frequency domains. To validate the efficacy of Fd-CycleGAN, we conduct experiments on diverse datasets -- Horse2Zebra, Monet2Photo, and a synthetically augmented Strike-off dataset. Compared to baseline CycleGAN and other state-of-the-art methods, our approach demonstrates superior perceptual quality, faster convergence, and improved mode diversity, particularly in low-data regimes. By effectively capturing local and global distribution characteristics, Fd-CycleGAN achieves more visually coherent and semantically consistent translations. Our results suggest that frequency-guided latent learning significantly improves generalization in image translation tasks, with promising applications in document restoration, artistic style transfer, and medical image synthesis. We also provide comparative insights with diffusion-based generative models, highlighting the advantages of our lightweight adversarial approach in terms of training efficiency and qualitative output.
- Abstract(参考訳): 本稿では,画像から画像への変換フレームワークFd-CycleGANを提案する。
提案手法は,CycleGANの基盤として,LNE(Local Neighborhood Encoding)と周波数認識監視を統合し,ソースドメインから構造コヒーレンスを保ちながら,微細な局所画素セマンティクスをキャプチャする。
我々は、空間領域と周波数領域の両方において、実画像と生成画像のアライメントを明示的に定量化するために、KL/JSのばらつきやログベースの類似度測定など、分布に基づく損失指標を用いる。
Fd-CycleGANの有効性を検証するために、Horse2Zebra、Monet2Photo、および合成強化されたStrike-offデータセットなど、さまざまなデータセットの実験を行います。
ベースラインのCycleGANや他の最先端手法と比較して,本手法は,特に低データ体制において,知覚的品質,収束性の向上,モードの多様性の向上を実証する。
Fd-CycleGANは、局所的および大域的な分布特性を効果的に捉えることにより、より視覚的に一貫性があり、意味的に一貫性のある翻訳を実現する。
その結果,周波数誘導型潜伏学習は画像翻訳タスクの一般化を著しく改善し,文書復元,芸術的スタイル転送,医用画像合成に有望な応用が期待できることがわかった。
また、拡散に基づく生成モデルによる比較洞察を提供し、訓練効率と定性的な出力の観点から、我々の軽量な敵対的アプローチの利点を強調した。
関連論文リスト
- Image-to-Image Translation with Diffusion Transformers and CLIP-Based Image Conditioning [2.9603070411207644]
Diffusion Transformers (DiT) は画像から画像への変換のための拡散ベースのフレームワークである。
DiTは拡散モデルのデノナイジング能力と変換器のグローバルなモデリング能力を組み合わせる。
実際の顔を漫画風のイラストに翻訳する face2comics と、エッジマップをリアルなシューズイメージに変換する edges2shoe の2つのベンチマークデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2025-05-21T20:37:33Z) - Robust Visual Representation Learning with Multi-modal Prior Knowledge for Image Classification Under Distribution Shift [29.954639194410586]
分布シフト下での一般化を改善するために,知識誘導型視覚表現学習(KGV)を提案する。
1)知識グラフ(KG)と階層的および関連的な関係、2)KGで意味的に表現された視覚要素の合成画像を生成する。
その結果、KGVは全ての実験において高い精度とデータ効率を示すことがわかった。
論文 参考訳(メタデータ) (2024-10-21T13:06:38Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Spectral Normalization and Dual Contrastive Regularization for
Image-to-Image Translation [9.029227024451506]
二重コントラスト正規化とスペクトル正規化に基づく新しい未ペアI2I翻訳フレームワークを提案する。
SN-DCRの有効性を評価するための総合的な実験を行い、本手法が複数のタスクにおいてSOTAを実現することを実証した。
論文 参考訳(メタデータ) (2023-04-22T05:22:24Z) - fRegGAN with K-space Loss Regularization for Medical Image Translation [42.253647362909476]
GAN(Generative Adversarial Network)は、現実的な画像の生成において顕著な成功を収めている。
GANは低周波の周波数バイアスに悩まされる傾向にあり、それによって生成された画像の重要な構造が取り除かれる。
本稿では,fRegGANと呼ばれる教師付きRegGANアプローチに基づく新しい周波数対応画像画像変換フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-28T12:49:10Z) - Deep Semantic Statistics Matching (D2SM) Denoising Network [70.01091467628068]
本稿では,Deep Semantic Statistics Matching (D2SM) Denoising Networkを紹介する。
事前訓練された分類ネットワークの意味的特徴を利用して、意味的特徴空間における明瞭な画像の確率的分布と暗黙的に一致させる。
識別画像のセマンティックな分布を学習することで,ネットワークの認知能力を大幅に向上させることを実証的に見出した。
論文 参考訳(メタデータ) (2022-07-19T14:35:42Z) - Semantic Image Synthesis via Diffusion Models [174.24523061460704]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に事実上のGANベースのアプローチに従っている。
意味画像合成のためのDDPMに基づく新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Smoothing the Disentangled Latent Style Space for Unsupervised
Image-to-Image Translation [56.55178339375146]
イメージ・ツー・イメージ(I2I)マルチドメイン翻訳モデルは通常、セマンティックな結果の品質を用いて評価される。
本稿では,翻訳ネットワークがスムーズでゆがみのあるラテントスタイル空間を学習するのに役立つ,3つの特定の損失に基づく新たなトレーニングプロトコルを提案する。
論文 参考訳(メタデータ) (2021-06-16T17:58:21Z) - Similarity Reasoning and Filtration for Image-Text Matching [85.68854427456249]
画像-テキストマッチングのための類似度グラフ推論と注意フィルタリングネットワークを提案する。
類似性グラフ推論(SGR)モジュールを1つのグラフ畳み込みニューラルネットワークに頼り、局所的および大域的アライメントの両方と関係性を考慮した類似性を推論する。
Flickr30K と MSCOCO のデータセット上での最先端性能を実現する上で,提案手法の優位性を示す。
論文 参考訳(メタデータ) (2021-01-05T06:29:35Z) - Multimodal Image-to-Image Translation via Mutual Information Estimation
and Maximization [16.54980086211836]
マルチモーダル画像画像変換 (Multimodal image-to-image translation, I2IT) は、ソース領域の入力画像が与えられた対象領域内の複数の可能な画像を探索する条件分布を学習することを目的としている。
このような条件分布をモデル化するために、条件生成逆ネットワーク(cGAN)がよく用いられる。
本稿では,cGANにおける潜在コードと出力画像間の相互情報を明示的に推定し,最大化する手法を提案する。
論文 参考訳(メタデータ) (2020-08-08T14:09:23Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。