論文の概要: F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal
- arxiv url: http://arxiv.org/abs/2506.05489v1
- Date: Thu, 05 Jun 2025 18:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.188936
- Title: F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal
- Title(参考訳): F2T2-HiT:U字型FFT変換器と階層変換器による反射除去
- Authors: Jie Cai, Kangning Yang, Ling Ouyang, Lan Fu, Jiaming Ding, Huiming Sun, Chiu Man Ho, Zibo Meng,
- Abstract要約: シングルイメージリフレクション除去(SIRR)技術は,背景からの不要な反射を除去することにより,画像処理において重要な役割を担っている。
これらの反射は、しばしばガラスの表面から撮影された写真によって引き起こされるが、画質を著しく劣化させる可能性がある。
本稿では,U字型高速フーリエ変換器と階層変換器アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.539156634006236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single Image Reflection Removal (SIRR) technique plays a crucial role in image processing by eliminating unwanted reflections from the background. These reflections, often caused by photographs taken through glass surfaces, can significantly degrade image quality. SIRR remains a challenging problem due to the complex and varied reflections encountered in real-world scenarios. These reflections vary significantly in intensity, shapes, light sources, sizes, and coverage areas across the image, posing challenges for most existing methods to effectively handle all cases. To address these challenges, this paper introduces a U-shaped Fast Fourier Transform Transformer and Hierarchical Transformer (F2T2-HiT) architecture, an innovative Transformer-based design for SIRR. Our approach uniquely combines Fast Fourier Transform (FFT) Transformer blocks and Hierarchical Transformer blocks within a UNet framework. The FFT Transformer blocks leverage the global frequency domain information to effectively capture and separate reflection patterns, while the Hierarchical Transformer blocks utilize multi-scale feature extraction to handle reflections of varying sizes and complexities. Extensive experiments conducted on three publicly available testing datasets demonstrate state-of-the-art performance, validating the effectiveness of our approach.
- Abstract(参考訳): シングルイメージリフレクション除去(SIRR)技術は,背景からの不要な反射を除去することにより,画像処理において重要な役割を担っている。
これらの反射は、しばしばガラスの表面から撮影された写真によって引き起こされるが、画質を著しく劣化させる可能性がある。
SIRRは、現実世界のシナリオで遭遇する複雑で多様なリフレクションのため、依然として困難な問題である。
これらの反射は、画像全体の強度、形状、光源、サイズ、カバー領域に大きく異なり、既存のほとんどの方法が全てのケースを効果的に処理するための課題を提起している。
これらの課題に対処するために,本研究では,SIRRの革新的なトランスベース設計である,U字型高速フーリエ変換器と階層変換器(F2T2-HiT)アーキテクチャを提案する。
UNetフレームワーク内でFast Fourier Transform(FFT) Transformerブロックと階層型 Transformerブロックを一意に結合する。
FFT変換器ブロックはグローバル周波数領域情報を利用して反射パターンを効果的に捕捉し分離する一方、階層変換器ブロックはマルチスケールの特徴抽出を利用して様々な大きさと複雑さの反射を処理する。
3つの公開テストデータセットで実施された大規模な実験は、最先端のパフォーマンスを示し、我々のアプローチの有効性を検証する。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。