論文の概要: MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration
- arxiv url: http://arxiv.org/abs/2501.04486v1
- Date: Wed, 08 Jan 2025 13:13:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-09 14:55:55.488452
- Title: MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration
- Title(参考訳): MB-TaylorFormer V2:Taylor式による画像復元によるマルチブランチ線形変圧器の改良
- Authors: Zhi Jin, Yuwei Qiu, Kaihao Zhang, Hongdong Li, Wenhan Luo,
- Abstract要約: MB-TaylorFormer V2は複数の画像復元タスクにおいて最先端の性能を達成することを示す。
提案したモデルでは,TaylorFormer V2のTaylorFormerの2番目のバージョンとして,粗大な特徴を同時に処理する機能を備えている。
- 参考スコア(独自算出の注目度): 85.41380152286479
- License:
- Abstract: Recently, Transformer networks have demonstrated outstanding performance in the field of image restoration due to the global receptive field and adaptability to input. However, the quadratic computational complexity of Softmax-attention poses a significant limitation on its extensive application in image restoration tasks, particularly for high-resolution images. To tackle this challenge, we propose a novel variant of the Transformer. This variant leverages the Taylor expansion to approximate the Softmax-attention and utilizes the concept of norm-preserving mapping to approximate the remainder of the first-order Taylor expansion, resulting in a linear computational complexity. Moreover, we introduce a multi-branch architecture featuring multi-scale patch embedding into the proposed Transformer, which has four distinct advantages: 1) various sizes of the receptive field; 2) multi-level semantic information; 3) flexible shapes of the receptive field; 4) accelerated training and inference speed. Hence, the proposed model, named the second version of Taylor formula expansion-based Transformer (for short MB-TaylorFormer V2) has the capability to concurrently process coarse-to-fine features, capture long-distance pixel interactions with limited computational cost, and improve the approximation of the Taylor expansion remainder. Experimental results across diverse image restoration benchmarks demonstrate that MB-TaylorFormer V2 achieves state-of-the-art performance in multiple image restoration tasks, such as image dehazing, deraining, desnowing, motion deblurring, and denoising, with very little computational overhead. The source code is available at https://github.com/FVL2020/MB-TaylorFormerV2.
- Abstract(参考訳): 近年、トランスフォーマーネットワークは、大域的受容場と入力への適応性により、画像復元の分野で卓越した性能を示している。
しかしながら、Softmaxアテンションの二次計算複雑性は、画像復元タスク、特に高解像度画像において、その広範な応用に重大な制限をもたらす。
この課題に対処するために,トランスフォーマーの新たな変種を提案する。
この変種はテイラー展開を利用してソフトマックスの注意を近似し、ノルム保存写像の概念を用いてテイラー展開の残りを近似し、線形計算複雑性をもたらす。
さらに,提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
1) 受容領域のさまざまな大きさ
2) 多段階意味情報
3) 受容領域のフレキシブルな形状
4) 訓練と推論速度が向上した。
したがって,TaylorFormer V2 のテイラー公式展開に基づく変換器の第2版 (MB-TaylorFormer V2) は,粗大な特徴を並列に処理し,計算コストの制限により長距離画素間相互作用を捕捉し,Taylor 展開残差の近似を改善することができる。
様々な画像復元ベンチマークによる実験結果から、MB-TaylorFormer V2は、画像のデハージング、デアライニング、デナウイング、動きのデブロアリング、デノイングといった複数の画像修復タスクにおいて、計算オーバーヘッドが少なく、最先端のパフォーマンスを達成することが示された。
ソースコードはhttps://github.com/FVL2020/MB-TaylorFormerV2で公開されている。
関連論文リスト
- A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift [6.835244697120131]
1x1のパッチサイズを利用して制限に対処するTaylorIRを提案し、任意のトランスフォーマーベースSRモデルでピクセルレベルの処理を可能にする。
実験により,従来の自己注意型変圧器と比較して,メモリ消費を最大60%削減しながら,最先端のSR性能を実現することができた。
論文 参考訳(メタデータ) (2024-11-15T14:43:58Z) - MB-TaylorFormer: Multi-branch Efficient Transformer Expanded by Taylor
Formula for Image Dehazing [88.61523825903998]
トランスフォーマーネットワークは、コンピュータビジョンの分野における純粋な畳み込みニューラルネットワーク(CNN)を置き換えるようになった。
そこで本研究では,Taylor拡張を応用してソフトマックスアテンションを近似し,線形計算複雑性を実現するトランスフォーマー変種を提案する。
提案するTransformerにマルチスケールパッチを組み込んだマルチブランチアーキテクチャを導入する。
Taylor式(MB-TaylorFormer)により拡張されたMulti-branch Transformerと呼ばれる我々のモデルは、パッチ埋め込み段階でより柔軟に粗さを微細な特徴に埋め込むことができ、計算コストに制限のある長距離画素相互作用を捉えることができる。
論文 参考訳(メタデータ) (2023-08-27T08:10:23Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - T-former: An Efficient Transformer for Image Inpainting [50.43302925662507]
トランスフォーマーと呼ばれる注目に基づくネットワークアーキテクチャのクラスは、自然言語処理の分野で大きなパフォーマンスを示している。
本稿では,Taylorの展開に応じて,解像度に線形に関連付けられた新たな注意を設計し,この注意に基づいて,画像インペイントのためのネットワークである$T$-formerを設計する。
いくつかのベンチマークデータセットの実験により,提案手法は比較的少ないパラメータ数と計算複雑性を維持しつつ,最先端の精度を達成できることが示されている。
論文 参考訳(メタデータ) (2023-05-12T04:10:42Z) - DynaST: Dynamic Sparse Transformer for Exemplar-Guided Image Generation [56.514462874501675]
本稿では,動的スパースアテンションに基づくトランスフォーマーモデルを提案する。
このアプローチの核心は、ある位置がフォーカスすべき最適なトークン数の変化をカバーすることに特化した、新しいダイナミックアテンションユニットです。
3つの応用、ポーズ誘導型人物画像生成、エッジベース顔合成、歪みのない画像スタイル転送の実験により、DynaSTは局所的な詳細において優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2022-07-13T11:12:03Z) - U2-Former: A Nested U-shaped Transformer for Image Restoration [30.187257111046556]
U2-Formerと呼ばれる画像復元のための深く効果的なトランスフォーマーネットワークを提案する。
コア操作としてTransformerを使用して、ディープエンコーディングとデコード空間でイメージ復元を行うことができる。
論文 参考訳(メタデータ) (2021-12-04T08:37:04Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Diverse Image Inpainting with Bidirectional and Autoregressive
Transformers [55.21000775547243]
新規な双方向自己回帰トランス(BAT)を用いた画像インペインティングフレームワークBAT-Fillを提案する。
BAT-Fillは変換器とCNNの利点を2段階的に継承し、変換器の注意の二次的複雑さに制約されることなく高解像度のコンテンツを生成する。
論文 参考訳(メタデータ) (2021-04-26T03:52:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。