論文の概要: Misalignment-Robust Frequency Distribution Loss for Image Transformation
- arxiv url: http://arxiv.org/abs/2402.18192v1
- Date: Wed, 28 Feb 2024 09:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-29 15:34:20.808993
- Title: Misalignment-Robust Frequency Distribution Loss for Image Transformation
- Title(参考訳): 画像変換におけるミスアリゲーション・ロバスト周波数分布損失
- Authors: Zhangkai Ni, Juncheng Wu, Zian Wang, Wenhan Yang, Hanli Wang, Lin Ma
- Abstract要約: 本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。
本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。
本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
- 参考スコア(独自算出の注目度): 51.0462138717502
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper aims to address a common challenge in deep learning-based image
transformation methods, such as image enhancement and super-resolution, which
heavily rely on precisely aligned paired datasets with pixel-level alignments.
However, creating precisely aligned paired images presents significant
challenges and hinders the advancement of methods trained on such data. To
overcome this challenge, this paper introduces a novel and simple Frequency
Distribution Loss (FDL) for computing distribution distance within the
frequency domain. Specifically, we transform image features into the frequency
domain using Discrete Fourier Transformation (DFT). Subsequently, frequency
components (amplitude and phase) are processed separately to form the FDL loss
function. Our method is empirically proven effective as a training constraint
due to the thoughtful utilization of global information in the frequency
domain. Extensive experimental evaluations, focusing on image enhancement and
super-resolution tasks, demonstrate that FDL outperforms existing
misalignment-robust loss functions. Furthermore, we explore the potential of
our FDL for image style transfer that relies solely on completely misaligned
data. Our code is available at: https://github.com/eezkni/FDL
- Abstract(参考訳): 本稿では,画像強調や高解像度化などの深層学習に基づく画像変換手法における共通の課題を解決することを目的としている。
しかし、正確に調整されたペア画像を作成することは大きな課題であり、そのようなデータに基づいて訓練された方法の進歩を妨げる。
本稿では,この課題を克服するために,周波数領域内の分布距離を計算するための新しい簡易周波数分布損失(fdl)を提案する。
具体的には、離散フーリエ変換(dft)を用いて画像特徴を周波数領域に変換する。
その後、周波数成分(振幅と位相)を別々に処理してFDL損失関数を形成する。
本手法は,周波数領域におけるグローバル情報の思考的利用による訓練制約として実証的に有効である。
画像強調と超分解能タスクに焦点をあてた大規模な実験的評価は、FDLが既存の誤配・損壊機能より優れていることを示した。
さらに、完全に不一致なデータのみに依存する画像スタイル転送のためのFDLの可能性についても検討する。
私たちのコードは、https://github.com/eezkni/FDLで利用可能です。
関連論文リスト
- FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss [5.349799154834945]
本稿では、新しい任意スケール超解像法であるFreqINR(FreqINR)について述べる。
トレーニングでは,適応離散コサイン変換周波数損失(adaptive Discrete Cosine Transform Frequency Loss,ADFL)を用いて,HR画像と地絡画像の周波数ギャップを最小化する。
推論の際には,低分解能(LR)画像と地軸画像のスペクトルコヒーレンスを維持するために受容場を拡張した。
論文 参考訳(メタデータ) (2024-08-25T03:53:17Z) - Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、3D表現学習を強化するために使用される。
VFMは、弱制御された画素間コントラスト蒸留のためのセマンティックラベルを生成する。
我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
論文 参考訳(メタデータ) (2024-05-23T07:48:19Z) - Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion [28.049668999586583]
本稿では,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。
CFWDは、複数のウェーブレット変換によって生成される周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。
提案手法は既存の最先端手法よりも優れ,画像品質と雑音抑制の大幅な進歩を実現している。
論文 参考訳(メタデータ) (2024-01-08T10:08:48Z) - Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。
FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。
また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文 参考訳(メタデータ) (2023-10-25T05:59:25Z) - Efficient Frequency Domain-based Transformers for High-Quality Image
Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。
我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文 参考訳(メタデータ) (2022-11-22T13:08:03Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind
Image Deblurring [72.43250555622254]
本稿では,周波数領域の競合損失制約型軽量サイクルGANと呼ばれる,軽量でリアルタイムな非教師付きBIDベースラインを提案する。
FCL-GANは、画像領域制限がなく、画像解像度制限がなく、SOTAより25倍軽く、SOTAより5倍高速である。
いくつかの画像データセットの実験では、性能、モデルサイズ、参照時間の観点からFCL-GANの有効性が示されている。
論文 参考訳(メタデータ) (2022-04-16T15:08:03Z) - F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain [12.290010554180613]
本稿では,F-Drop(F-Drop)とF-Match(F-Match)という2つの新しいトレーニング手法を紹介する。
F−Dropは、識別器の入力画像から不要な高周波成分をフィルタリングする。
F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の差を最小限にする。
論文 参考訳(メタデータ) (2021-06-04T08:51:58Z) - Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。
監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。
ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文 参考訳(メタデータ) (2020-12-18T08:25:39Z) - Frequency Domain Image Translation: More Photo-realistic, Better
Identity-preserving [36.606114597585396]
本稿では,周波数情報を利用した新しい周波数領域画像翻訳フレームワークを提案する。
我々のキーとなる考え方は、画像を低周波および高周波の成分に分解することであり、そこでは、高周波の特徴がアイデンティティに似たオブジェクト構造をキャプチャする。
広汎な実験と改善により、FDITはソース画像のアイデンティティを効果的に保存し、フォトリアリスティック画像を生成する。
論文 参考訳(メタデータ) (2020-11-27T08:58:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。