論文の概要: Frequency-Domain Fusion Transformer for Image Inpainting
- arxiv url: http://arxiv.org/abs/2506.18437v1
- Date: Mon, 23 Jun 2025 09:19:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.920556
- Title: Frequency-Domain Fusion Transformer for Image Inpainting
- Title(参考訳): 画像塗布用周波数領域融合変圧器
- Authors: Sijin He, Guangfeng Lin, Tao Li, Yajun Chen,
- Abstract要約: 本稿では,周波数領域融合を取り入れたトランスフォーマーによる画像描画手法を提案する。
実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
- 参考スコア(独自算出の注目度): 6.4194162137514725
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image inpainting plays a vital role in restoring missing image regions and supporting high-level vision tasks, but traditional methods struggle with complex textures and large occlusions. Although Transformer-based approaches have demonstrated strong global modeling capabilities, they often fail to preserve high-frequency details due to the low-pass nature of self-attention and suffer from high computational costs. To address these challenges, this paper proposes a Transformer-based image inpainting method incorporating frequency-domain fusion. Specifically, an attention mechanism combining wavelet transform and Gabor filtering is introduced to enhance multi-scale structural modeling and detail preservation. Additionally, a learnable frequency-domain filter based on the fast Fourier transform is designed to replace the feedforward network, enabling adaptive noise suppression and detail retention. The model adopts a four-level encoder-decoder structure and is guided by a novel loss strategy to balance global semantics and fine details. Experimental results demonstrate that the proposed method effectively improves the quality of image inpainting by preserving more high-frequency information.
- Abstract(参考訳): 画像の塗装は、欠落した画像領域を復元し、ハイレベルな視覚タスクをサポートする上で重要な役割を担っているが、従来の手法は複雑なテクスチャと大きな閉塞に苦しむ。
トランスフォーマーベースのアプローチは、強力なグローバルモデリング能力を示しているが、自己注意の低パス性や計算コストに悩まされているため、しばしば高周波の詳細を保存できない。
これらの課題に対処するため,本研究では,周波数領域融合を取り入れたトランスフォーマーによる画像インペインティング手法を提案する。
具体的には、ウェーブレット変換とガボルフィルタを組み合わせたアテンション機構を導入し、マルチスケール構造モデリングと詳細保存を強化した。
さらに、高速フーリエ変換に基づく学習可能な周波数領域フィルタは、フィードフォワードネットワークを置き換えるように設計され、適応的なノイズ抑圧と詳細保持を可能にする。
このモデルは4レベルエンコーダ・デコーダ構造を採用し、グローバルセマンティクスと細部をバランスさせる新しい損失戦略によって導かれる。
実験により,提案手法は高周波数情報を保存することにより,画像の塗装品質を効果的に向上することを示した。
関連論文リスト
- A Novel Lightweight Transformer with Edge-Aware Fusion for Remote Sensing Image Captioning [0.12499537119440242]
エンコーダ層の寸法を小さくし, 蒸留したGPT-2をデコーダとして使用するために, 軽量トランスフォーマアーキテクチャを提案する。
知識蒸留戦略は、より複雑な教師モデルから知識を伝達し、軽量ネットワークの性能を向上させるために用いられる。
実験により,提案手法は,最先端手法と比較してキャプション品質を著しく向上することが示された。
論文 参考訳(メタデータ) (2025-06-11T06:24:02Z) - Freqformer: Image-Demoiréing Transformer via Efficient Frequency Decomposition [83.40450475728792]
本稿では,Freqformerについて述べる。Freqformerは,ターゲット周波数分離による画像復号化に特化して設計されたトランスフォーマーベースのフレームワークである。
本手法は,モワールパターンを高周波数空間局在化テクスチャと低周波数スケールローバスト色歪みに明確に分割する有効な周波数分解を行う。
様々なデモアのベンチマーク実験により、Freqformerは、コンパクトなモデルサイズで最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2025-05-25T12:23:10Z) - Wavelet-Driven Masked Image Modeling: A Path to Efficient Visual Representation [27.576174611043367]
Masked Image Modeling (MIM)は、下流タスクに適したスケーラブルな視覚表現を学習する能力のおかげで、自己教師付き学習において大きな注目を集めている。
しかし、画像は本質的に冗長な情報を含んでいるため、画素ベースのMIM再構成プロセスはテクスチャなどの細部に過度に集中し、不要なトレーニング時間を延ばすことになる。
本研究では,MIMの学習過程を高速化するために,ウェーブレット変換を効率的な表現学習のツールとして活用する。
論文 参考訳(メタデータ) (2025-03-02T08:11:26Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Holistic Dynamic Frequency Transformer for Image Fusion and Exposure Correction [18.014481087171657]
露出関連問題の修正は、画像の品質向上における重要な要素である。
本稿では、周波数領域を利用して露出補正タスクの処理を改善し、統一する新しい手法を提案する。
提案手法は, 露光補正においてより高度で統一された解を実現する方法である。
論文 参考訳(メタデータ) (2023-09-03T14:09:14Z) - MAT: Mask-Aware Transformer for Large Hole Image Inpainting [79.67039090195527]
本稿では, 変圧器と畳み込みの利点を統一する, 大穴塗装の新しいモデルを提案する。
実験では、複数のベンチマークデータセット上で、新しいモデルの最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-03-29T06:36:17Z) - CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware
Training [112.96224800952724]
複雑な画像に大きな穴をあける際の可視像構造を生成するためのカスケード変調GAN(CM-GAN)を提案する。
各デコーダブロックにおいて、まず大域変調を適用し、粗い意味認識合成構造を行い、次に大域変調の出力に空間変調を適用し、空間適応的に特徴写像を更に調整する。
さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすために,オブジェクト認識型トレーニングスキームを設計する。
論文 参考訳(メタデータ) (2022-03-22T16:13:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。