論文の概要: Efficient Concertormer for Image Deblurring and Beyond
- arxiv url: http://arxiv.org/abs/2404.06135v3
- Date: Wed, 04 Dec 2024 02:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 11:46:56.774048
- Title: Efficient Concertormer for Image Deblurring and Beyond
- Title(参考訳): 画像劣化と超高効率コンストラクタ
- Authors: Pin-Hung Kuo, Jinshan Pan, Shao-Yi Chien, Ming-Hsuan Yang,
- Abstract要約: 本稿では,画像の劣化を抑えるための新しいCSA機構を提案する。
自己アテンション計算とは無関係な余剰次元の部分情報を保持することにより,画像サイズに線形な大域的文脈表現を効果的に取得する。
本研究の主な目的は, 単一像運動の劣化であるが, 定量的, 質的な評価により, 他の課題における最先端の手法に対して, より良好に行動できることが示されている。
- 参考スコア(独自算出の注目度): 87.07963453448328
- License:
- Abstract: The Transformer architecture has achieved remarkable success in natural language processing and high-level vision tasks over the past few years. However, the inherent complexity of self-attention is quadratic to the size of the image, leading to unaffordable computational costs for high-resolution vision tasks. In this paper, we introduce Concertormer, featuring a novel Concerto Self-Attention (CSA) mechanism designed for image deblurring. The proposed CSA divides self-attention into two distinct components: one emphasizes generally global and another concentrates on specifically local correspondence. By retaining partial information in additional dimensions independent from the self-attention calculations, our method effectively captures global contextual representations with complexity linear to the image size. To effectively leverage the additional dimensions, we present a Cross-Dimensional Communication module, which linearly combines attention maps and thus enhances expressiveness. Moreover, we amalgamate the two-staged Transformer design into a single stage using the proposed gated-dconv MLP architecture. While our primary objective is single-image motion deblurring, extensive quantitative and qualitative evaluations demonstrate that our approach performs favorably against the state-of-the-art methods in other tasks, such as deraining and deblurring with JPEG artifacts. The source codes and trained models will be made available to the public.
- Abstract(参考訳): Transformerアーキテクチャは、ここ数年で自然言語処理とハイレベルなビジョンタスクにおいて大きな成功を収めてきた。
しかし、自己注意の本質的にの複雑さは画像のサイズに対して2次的であり、高解像度視覚タスクの計算コストは不必要である。
本稿では,イメージデブロアのための新しいコンチェルト・セルフアテンション(CSA)機構を特徴とするコンチェルトオーマーについて紹介する。
提案されたCSAは、自己意識を2つの異なる構成要素に分割する。
自己アテンション計算とは無関係な余剰次元の部分情報を保持することにより,画像サイズに線形な大域的文脈表現を効果的に取得する。
付加次元を効果的に活用するために,注目マップを線形に結合し,表現性を高めるクロス次元通信モジュールを提案する。
さらに,2段トランスフォーマーの設計を1段に集約し,ゲート-dconv MLPアーキテクチャを提案する。
我々の主な目的は単イメージの動作の劣化であるが、広範に定量的かつ質的な評価は、JPEGアーティファクトによるデアライニングやデアライニングなど、他のタスクにおける最先端の手法に対して、我々のアプローチが好適に機能することを示す。
ソースコードとトレーニングされたモデルが一般公開される予定だ。
関連論文リスト
- Image Anything: Towards Reasoning-coherent and Training-free Multi-modal
Image Generation [9.573188010530217]
ImgAnyは、人間の推論を模倣し高品質な画像を生成する、新しいエンドツーエンドのマルチモーダル生成モデルである。
本手法は, 7つのモダリティの組み合わせを効率よく, 柔軟に行うための最初の試みである。
論文 参考訳(メタデータ) (2024-01-31T08:35:40Z) - PanFormer: a Transformer Based Model for Pan-sharpening [49.45405879193866]
パンシャーピングは、低分解能(LR)マルチスペクトル(MS)画像とそれに対応するパンクロマチック(PAN)画像から高分解能(HR)マルチスペクトル(MS)画像を作成することを目的としている。
近年の深層学習コミュニティにおける新しいファッションに触発されて,パンシャーピングのための新しいトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2022-03-06T09:22:20Z) - Shunted Self-Attention via Multi-Scale Token Aggregation [124.16925784748601]
最近のビジョン変換器(ViT)モデルは、様々なコンピュータビジョンタスクにまたがる励振結果を実証している。
注意層ごとのハイブリッドスケールでの注意をViTsでモデル化するShunted Self-attention(SSA)を提案する。
SSAベースの変換器は84.0%のTop-1精度を実現し、ImageNetの最先端のFocal Transformerより優れている。
論文 参考訳(メタデータ) (2021-11-30T08:08:47Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - ResT: An Efficient Transformer for Visual Recognition [5.807423409327807]
本稿では、画像認識のための汎用バックボーンとして機能する、ResTと呼ばれる効率的なマルチスケール視覚変換器を提案する。
提案したResTは、最近の最先端のバックボーンよりも大きなマージンで、ResTの強力なバックボーンとしての可能性を示している。
論文 参考訳(メタデータ) (2021-05-28T08:53:54Z) - Multiscale Vision Transformers [79.76412415996892]
本稿では,マルチスケール特徴階層をトランスフォーマモデルに結びつけることで,映像・画像認識のためのマルチスケールビジョントランス (MViT) を提案する。
我々は,視覚信号の密集性を様々な映像認識タスクでモデル化するために,この基本アーキテクチャの事前評価を行う。
論文 参考訳(メタデータ) (2021-04-22T17:59:45Z) - CrossViT: Cross-Attention Multi-Scale Vision Transformer for Image
Classification [17.709880544501758]
異なるサイズの画像パッチを組み合わせて、より強力な画像特徴を生成するデュアルブランチトランスを提案します。
我々のアプローチは、異なる計算複雑性の2つの別々の分岐を持つ小さなパッチトークンと大きなパッチトークンを処理します。
私たちの提案するクロスアテンションは、計算とメモリの複雑さの両方に線形時間しか必要としない。
論文 参考訳(メタデータ) (2021-03-27T13:03:17Z) - Transformers in Vision: A Survey [101.07348618962111]
トランスフォーマーは、入力シーケンス要素間の長い依存関係をモデリングし、シーケンスの並列処理をサポートします。
変圧器は設計に最小限の誘導バイアスを必要とし、自然にセット関数として適しています。
本調査は,コンピュータビジョン分野におけるトランスフォーマーモデルの概要を概観することを目的としている。
論文 参考訳(メタデータ) (2021-01-04T18:57:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。