論文の概要: F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal
- arxiv url: http://arxiv.org/abs/2506.05489v1
- Date: Thu, 05 Jun 2025 18:12:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.188936
- Title: F2T2-HiT: A U-Shaped FFT Transformer and Hierarchical Transformer for Reflection Removal
- Title(参考訳): F2T2-HiT:U字型FFT変換器と階層変換器による反射除去
- Authors: Jie Cai, Kangning Yang, Ling Ouyang, Lan Fu, Jiaming Ding, Huiming Sun, Chiu Man Ho, Zibo Meng,
- Abstract要約: シングルイメージリフレクション除去(SIRR)技術は,背景からの不要な反射を除去することにより,画像処理において重要な役割を担っている。
これらの反射は、しばしばガラスの表面から撮影された写真によって引き起こされるが、画質を著しく劣化させる可能性がある。
本稿では,U字型高速フーリエ変換器と階層変換器アーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 16.539156634006236
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Single Image Reflection Removal (SIRR) technique plays a crucial role in image processing by eliminating unwanted reflections from the background. These reflections, often caused by photographs taken through glass surfaces, can significantly degrade image quality. SIRR remains a challenging problem due to the complex and varied reflections encountered in real-world scenarios. These reflections vary significantly in intensity, shapes, light sources, sizes, and coverage areas across the image, posing challenges for most existing methods to effectively handle all cases. To address these challenges, this paper introduces a U-shaped Fast Fourier Transform Transformer and Hierarchical Transformer (F2T2-HiT) architecture, an innovative Transformer-based design for SIRR. Our approach uniquely combines Fast Fourier Transform (FFT) Transformer blocks and Hierarchical Transformer blocks within a UNet framework. The FFT Transformer blocks leverage the global frequency domain information to effectively capture and separate reflection patterns, while the Hierarchical Transformer blocks utilize multi-scale feature extraction to handle reflections of varying sizes and complexities. Extensive experiments conducted on three publicly available testing datasets demonstrate state-of-the-art performance, validating the effectiveness of our approach.
- Abstract(参考訳): シングルイメージリフレクション除去(SIRR)技術は,背景からの不要な反射を除去することにより,画像処理において重要な役割を担っている。
これらの反射は、しばしばガラスの表面から撮影された写真によって引き起こされるが、画質を著しく劣化させる可能性がある。
SIRRは、現実世界のシナリオで遭遇する複雑で多様なリフレクションのため、依然として困難な問題である。
これらの反射は、画像全体の強度、形状、光源、サイズ、カバー領域に大きく異なり、既存のほとんどの方法が全てのケースを効果的に処理するための課題を提起している。
これらの課題に対処するために,本研究では,SIRRの革新的なトランスベース設計である,U字型高速フーリエ変換器と階層変換器(F2T2-HiT)アーキテクチャを提案する。
UNetフレームワーク内でFast Fourier Transform(FFT) Transformerブロックと階層型 Transformerブロックを一意に結合する。
FFT変換器ブロックはグローバル周波数領域情報を利用して反射パターンを効果的に捕捉し分離する一方、階層変換器ブロックはマルチスケールの特徴抽出を利用して様々な大きさと複雑さの反射を処理する。
3つの公開テストデータセットで実施された大規模な実験は、最先端のパフォーマンスを示し、我々のアプローチの有効性を検証する。
関連論文リスト
- FiTv2: Scalable and Improved Flexible Vision Transformer for Diffusion Model [76.84519526283083]
textbfFlexible Vision Transformer (FiT) は、テキスト非制限解像度とアスペクト比で画像を生成するために設計されたトランスアーキテクチャである。
FiTv2は、高度なトレーニングフリーな外挿技術を導入する際に、FiTの収束速度を2倍に向上させる。
総合的な実験は、FiTv2の幅広い解像度での異常な性能を実証している。
論文 参考訳(メタデータ) (2024-10-17T15:51:49Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - FiT: Flexible Vision Transformer for Diffusion Model [81.85667773832279]
本稿では,非制限解像度とアスペクト比で画像を生成するためのトランスフォーマーアーキテクチャを提案する。
静的解像度グリッドとしてイメージを認識する従来の方法とは異なり、FiTは動的サイズのトークンのシーケンスとしてイメージを概念化している。
総合的な実験は、幅広い解像度でFiTの異常な性能を実証している。
論文 参考訳(メタデータ) (2024-02-19T18:59:07Z) - PFT-SSR: Parallax Fusion Transformer for Stereo Image Super-Resolution [22.251884516076096]
PFT(Parallax Fusion Transformer)と呼ばれるトランスフォーマーベースの並列核融合モジュールを提案する。
PFTは、クロスビュー情報を利用するためにクロスビューフュージョントランス(CVFT)と、イントラビュー機能改善のためにIVRT(Intra-view Refinement Transformer)を使用している。
実験およびアブレーション実験により、PFT-SSRは競争結果を得ることができ、ほとんどのSOTA法より優れることが示された。
論文 参考訳(メタデータ) (2023-03-24T05:04:52Z) - Contextual Learning in Fourier Complex Field for VHR Remote Sensing
Images [64.84260544255477]
変圧器を用いたモデルでは、一般解像度(224x224ピクセル)の自然画像から高次文脈関係を学習する優れた可能性を示した
そこで本研究では,高次文脈情報のモデル化を行う複雑な自己意識(CSA)機構を提案する。
CSAブロックの様々な層を積み重ねることで、VHR空中画像からグローバルな文脈情報を学習するFourier Complex Transformer(FCT)モデルを提案する。
論文 参考訳(メタデータ) (2022-10-28T08:13:33Z) - Towards Lightweight Transformer via Group-wise Transformation for
Vision-and-Language Tasks [126.33843752332139]
本稿では,LW-Transformerと呼ばれる視覚・言語タスクのための,普遍的で軽量なトランスフォーマーに対するグループワイズ変換を提案する。
LW-Transformerを一組のTransformerベースのネットワークに適用し、3つの視覚・言語タスクと6つのベンチマークデータセットで定量的に測定する。
実験の結果,LW-Transformerは多数のパラメータや計算を節約しながら,視覚・言語タスクのためのトランスフォーマーネットワークと非常に競合する性能を発揮することがわかった。
論文 参考訳(メタデータ) (2022-04-16T11:30:26Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - PPT Fusion: Pyramid Patch Transformerfor a Case Study in Image Fusion [37.993611194758195]
画像から意味情報を抽出する問題に対処するため,Patch Pyramid Transformer(PPT)を提案する。
実験により, 現状の核融合法に対して優れた性能を示した。
論文 参考訳(メタデータ) (2021-07-29T13:57:45Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。