Fugu-MT 論文翻訳(概要): Misalignment-Robust Frequency Distribution Loss for Image Transformation

論文の概要: Misalignment-Robust Frequency Distribution Loss for Image Transformation

arxiv url: http://arxiv.org/abs/2402.18192v1
Date: Wed, 28 Feb 2024 09:27:41 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-29 15:34:20.808993
Title: Misalignment-Robust Frequency Distribution Loss for Image Transformation
Title（参考訳）: 画像変換におけるミスアリゲーション・ロバスト周波数分布損失
Authors: Zhangkai Ni, Juncheng Wu, Zian Wang, Wenhan Yang, Hanli Wang, Lin Ma
Abstract要約: 本稿では,画像強調や超解像といった深層学習に基づく画像変換手法における共通の課題に対処することを目的とする。本稿では、周波数領域内における分布距離を計算するための、新しいシンプルな周波数分布損失(FDL)を提案する。本手法は,周波数領域におけるグローバル情報の思慮深い活用により,トレーニング制約として実証的に有効であることが実証された。
参考スコア（独自算出の注目度）: 51.0462138717502
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper aims to address a common challenge in deep learning-based image transformation methods, such as image enhancement and super-resolution, which heavily rely on precisely aligned paired datasets with pixel-level alignments. However, creating precisely aligned paired images presents significant challenges and hinders the advancement of methods trained on such data. To overcome this challenge, this paper introduces a novel and simple Frequency Distribution Loss (FDL) for computing distribution distance within the frequency domain. Specifically, we transform image features into the frequency domain using Discrete Fourier Transformation (DFT). Subsequently, frequency components (amplitude and phase) are processed separately to form the FDL loss function. Our method is empirically proven effective as a training constraint due to the thoughtful utilization of global information in the frequency domain. Extensive experimental evaluations, focusing on image enhancement and super-resolution tasks, demonstrate that FDL outperforms existing misalignment-robust loss functions. Furthermore, we explore the potential of our FDL for image style transfer that relies solely on completely misaligned data. Our code is available at: https://github.com/eezkni/FDL
Abstract（参考訳）: 本稿では,画像強調や高解像度化などの深層学習に基づく画像変換手法における共通の課題を解決することを目的としている。しかし、正確に調整されたペア画像を作成することは大きな課題であり、そのようなデータに基づいて訓練された方法の進歩を妨げる。本稿では,この課題を克服するために,周波数領域内の分布距離を計算するための新しい簡易周波数分布損失(fdl)を提案する。具体的には、離散フーリエ変換(dft)を用いて画像特徴を周波数領域に変換する。その後、周波数成分(振幅と位相)を別々に処理してFDL損失関数を形成する。本手法は,周波数領域におけるグローバル情報の思考的利用による訓練制約として実証的に有効である。画像強調と超分解能タスクに焦点をあてた大規模な実験的評価は、FDLが既存の誤配・損壊機能より優れていることを示した。さらに、完全に不一致なデータのみに依存する画像スタイル転送のためのFDLの可能性についても検討する。私たちのコードは、https://github.com/eezkni/FDLで利用可能です。

関連論文リスト

Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-05-25T12:23:10Z)
Self-Bootstrapping for Versatile Test-Time Adaptation [29.616417768209114]
我々は様々なタスクに対して多目的なテスト時間適応(TTA)の目標を策定する。テスト画像(ターゲット)と劣化したビューとの予測一貫性を最適化する自己ブートストラップ方式によりこれを実現できる。実験により, 独立に, あるいはプラグアンドプレイモジュールとして, 分類, セグメンテーション, 3次元単分子検出タスクにおいて, 優れた結果が得られることが示された。
論文参考訳（メタデータ） (2025-04-10T05:45:07Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
FreqINR: Frequency Consistency for Implicit Neural Representation with Adaptive DCT Frequency Loss [5.349799154834945]
本稿では、新しい任意スケール超解像法であるFreqINR(FreqINR)について述べる。トレーニングでは,適応離散コサイン変換周波数損失(adaptive Discrete Cosine Transform Frequency Loss,ADFL)を用いて,HR画像と地絡画像の周波数ギャップを最小化する。推論の際には,低分解能(LR)画像と地軸画像のスペクトルコヒーレンスを維持するために受容場を拡張した。
論文参考訳（メタデータ） (2024-08-25T03:53:17Z)
Fine-grained Image-to-LiDAR Contrastive Distillation with Visual Foundation Models [55.99654128127689]
Visual Foundation Models (VFM) は、3D表現学習を強化するために使用される。 VFMは、弱制御された画素間コントラスト蒸留のためのセマンティックラベルを生成する。我々は,空間分布とカテゴリー周波数の不均衡に対応するために,点のサンプリング確率を適応させる。
論文参考訳（メタデータ） (2024-05-23T07:48:19Z)
Low-light Image Enhancement via CLIP-Fourier Guided Wavelet Diffusion [28.049668999586583]
本稿では,CLIP-Fourier Guided Wavelet Diffusion(CFWD)による新しい低照度画像強調手法を提案する。 CFWDは、複数のウェーブレット変換によって生成される周波数領域空間におけるマルチモーダル視覚言語情報を活用して、拡張プロセスの導出を行う。提案手法は既存の最先端手法よりも優れ,画像品質と雑音抑制の大幅な進歩を実現している。
論文参考訳（メタデータ） (2024-01-08T10:08:48Z)
Frequency-Aware Transformer for Learned Image Compression [64.28698450919647]
学習画像圧縮(lic)のためのマルチスケール指向性アナリシスを初めて実現した周波数認識変換器(FAT)ブロックを提案する。 FATブロックは、自然画像のマルチスケールおよび指向性周波数成分をキャプチャするための周波数分解ウィンドウアテンション(FDWA)モジュールを含む。また、周波数変調フィードフォワードネットワーク(FMFFN)を導入し、異なる周波数成分を適応的に変調し、周波数歪み性能を向上させる。
論文参考訳（メタデータ） (2023-10-25T05:59:25Z)
Efficient Frequency Domain-based Transformers for High-Quality Image Deblurring [39.720032882926176]
本稿では,高画質画像の周波数領域におけるトランスフォーマーの特性を効果的かつ効率的に探索する手法を提案する。我々は提案したFSASとDFFNをエンコーダとデコーダアーキテクチャに基づく非対称ネットワークに定式化する。
論文参考訳（メタデータ） (2022-11-22T13:08:03Z)
Contextual Learning in Fourier Complex Field for VHR Remote Sensing Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示したそこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。 CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文参考訳（メタデータ） (2022-10-28T08:13:33Z)
FCL-GAN: A Lightweight and Real-Time Baseline for Unsupervised Blind Image Deblurring [72.43250555622254]
本稿では,周波数領域の競合損失制約型軽量サイクルGANと呼ばれる,軽量でリアルタイムな非教師付きBIDベースラインを提案する。 FCL-GANは、画像領域制限がなく、画像解像度制限がなく、SOTAより25倍軽く、SOTAより5倍高速である。いくつかの画像データセットの実験では、性能、モデルサイズ、参照時間の観点からFCL-GANの有効性が示されている。
論文参考訳（メタデータ） (2022-04-16T15:08:03Z)
F-Drop&Match: GANs with a Dead Zone in the High-Frequency Domain [12.290010554180613]
本稿では,F-Drop(F-Drop)とF-Match(F-Match)という2つの新しいトレーニング手法を紹介する。 F−Dropは、識別器の入力画像から不要な高周波成分をフィルタリングする。 F-Matchは、よりリアルな画像を生成するために周波数領域における実画像と偽画像の差を最小限にする。
論文参考訳（メタデータ） (2021-06-04T08:51:58Z)
Frequency Consistent Adaptation for Real World Super Resolution [64.91914552787668]
実シーンにスーパーリゾリューション(SR)法を適用する際に周波数領域の整合性を保証する新しい周波数一貫性適応(FCA)を提案する。監視されていない画像から劣化カーネルを推定し、対応するLow-Resolution (LR)画像を生成する。ドメイン一貫性のあるLR-HRペアに基づいて、容易に実装可能な畳み込みニューラルネットワーク(CNN)SRモデルを訓練する。
論文参考訳（メタデータ） (2020-12-18T08:25:39Z)
Frequency Domain Image Translation: More Photo-realistic, Better Identity-preserving [36.606114597585396]
本稿では,周波数情報を利用した新しい周波数領域画像翻訳フレームワークを提案する。我々のキーとなる考え方は、画像を低周波および高周波の成分に分解することであり、そこでは、高周波の特徴がアイデンティティに似たオブジェクト構造をキャプチャする。広汎な実験と改善により、FDITはソース画像のアイデンティティを効果的に保存し、フォトリアリスティック画像を生成する。
論文参考訳（メタデータ） (2020-11-27T08:58:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。