論文の概要: RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image
Restoration
- arxiv url: http://arxiv.org/abs/2305.11474v3
- Date: Wed, 12 Jul 2023 12:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-13 16:47:39.794665
- Title: RAMiT: Reciprocal Attention Mixing Transformer for Lightweight Image
Restoration
- Title(参考訳): RAMiT:軽量画像復元用相互注意混合変換器
- Authors: Haram Choi, Cheolwoong Na, Jihyeon Oh, Seungjae Lee, Jinseop Kim,
Subeen Choe, Jeongmin Lee, Taehoon Kim, Jihoon Yang
- Abstract要約: 本稿では,RAMiT(Reciprocal Attention Mixing Transformer)という軽量画像復元ネットワークを提案する。
二次元(空間とチャネル)の自己アテンションを、異なる数のマルチヘッドと並行して使用する。
超高分解能、カラーデノイング、グレースケールデノナイジング、低照度向上、デラリニングなど、複数の軽量IRタスクにおける最先端のパフォーマンスを実現している。
- 参考スコア(独自算出の注目度): 7.419584083344995
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although many recent works have made advancements in the image restoration
(IR) field, they often suffer from an excessive number of parameters. Another
issue is that most Transformer-based IR methods focus only on either local or
global features, leading to limited receptive fields or deficient parameter
issues. To address these problems, we propose a lightweight IR network,
Reciprocal Attention Mixing Transformer (RAMiT). It employs our proposed
dimensional reciprocal attention mixing Transformer (D-RAMiT) blocks, which
compute bi-dimensional (spatial and channel) self-attentions in parallel with
different numbers of multi-heads. The bi-dimensional attentions help each other
to complement their counterpart's drawbacks and are then mixed. Additionally,
we introduce a hierarchical reciprocal attention mixing (H-RAMi) layer that
compensates for pixel-level information losses and utilizes semantic
information while maintaining an efficient hierarchical structure. Furthermore,
we revisit and modify MobileNet V1 and V2 to attach efficient convolutions to
our proposed components. The experimental results demonstrate that RAMiT
achieves state-of-the-art performance on multiple lightweight IR tasks,
including super-resolution, color denoising, grayscale denoising, low-light
enhancement, and deraining. Codes are available at
https://github.com/rami0205/RAMiT.
- Abstract(参考訳): 近年の多くの作品は画像復元(ir)の分野で進歩を遂げているが、パラメータの多さに苦しむことが多い。
もうひとつの問題は、ほとんどのTransformerベースのIRメソッドがローカルまたはグローバルな機能にのみ焦点をあてていることだ。
そこで本稿では,軽量irネットワークであるreciprocal attention mixed transformer (ramit)を提案する。
提案する次元相互注意混合トランス(d-ramit)ブロックを用いて,複数ヘッドの異なる数に並列に2次元(空間的およびチャネル的)自己アテンションを計算する。
二次元の注意は互いの欠点を補うのに役立ち、その後混合される。
さらに,画素レベルの情報損失を補償し,効率的な階層構造を維持しつつ意味情報を利用する階層的相互注意混合(h-rami)層を導入する。
さらに,提案するコンポーネントに効率的な畳み込みをアタッチするためにmobilenet v1とv2を再検討し,修正する。
実験の結果,RAMiTは高分解能,カラーデノナイジング,グレースケールデノナイジング,低照度エンハンスメント,デラナイジングなど,複数の軽量IRタスクにおいて最先端性能を実現することが示された。
コードはhttps://github.com/rami0205/RAMiTで入手できる。
関連論文リスト
- Video Super-Resolution Transformer with Masked Inter&Intra-Frame
Attention [49.536231927541124]
Vision Transformerは、低解像度のシーケンスで欠落した詳細を復元することに成功した。
VSRの精度が優れているにもかかわらず、計算負荷と大きなメモリフットプリントはトランスフォーマーベースのVSRモデルの展開を妨げる。
マスク内およびフレーム間アテンション(MIA-VSR)を用いた新しい特徴レベルマスキング処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-12T00:49:49Z) - Efficient Multi-scale Network with Learnable Discrete Wavelet Transform for Blind Motion Deblurring [25.36888929483233]
そこで本研究では,シングルインプットとマルチアウトプット(SIMO)に基づくマルチスケールネットワークを提案する。
実世界の軌道特性を学習可能なウェーブレット変換モジュールと組み合わせて、ぼやけた画像から鋭い画像へのステップバイステップ遷移の方向連続性と周波数特性に着目した。
論文 参考訳(メタデータ) (2023-12-29T02:59:40Z) - HAT: Hybrid Attention Transformer for Image Restoration [61.74223315807691]
トランスフォーマーに基づく手法は、画像の超解像や復調といった画像復元タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
我々のHATは,定量的かつ定性的に,最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-09-11T05:17:55Z) - Efficient Mixed Transformer for Single Image Super-Resolution [1.7740376367999706]
Mixed Transformer Block (MTB) は複数の連続トランス層から構成される。
Pixel Mixer (PM) はSelf-Attention (SA) を置き換えるために使用される。
PMは、ピクセルシフト操作による局所的な知識集約を強化することができる。
論文 参考訳(メタデータ) (2023-05-19T03:19:38Z) - Spatially-Adaptive Feature Modulation for Efficient Image
Super-Resolution [90.16462805389943]
視覚変換器(ViT)のようなブロック上に,空間適応型特徴変調(SAFM)機構を開発する。
提案法は最先端のSR法よりも3倍程度小さい。
論文 参考訳(メタデータ) (2023-02-27T14:19:31Z) - Accurate Image Restoration with Attention Retractable Transformer [50.05204240159985]
画像復元のためのアテンション・リトラクタブル・トランス (ART) を提案する。
ARTはネットワーク内の密集モジュールと疎開モジュールの両方を提示する。
画像超解像、デノナイジング、JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-10-04T07:35:01Z) - ShuffleMixer: An Efficient ConvNet for Image Super-Resolution [88.86376017828773]
本稿では、大きな畳み込みとチャネル分割シャッフル操作を探索する軽量画像超解像のためのShuffleMixerを提案する。
具体的には,チャネル分割とシャッフルを基本成分とする2つのプロジェクション層を効率よく混合する。
実験結果から,ShuffleMixerはモデルパラメータやFLOPの手法に比べて約6倍小さいことがわかった。
論文 参考訳(メタデータ) (2022-05-30T15:26:52Z) - HUMUS-Net: Hybrid unrolled multi-scale network architecture for
accelerated MRI reconstruction [38.0542877099235]
HUMUS-Netは、暗黙のバイアスと畳み込みの効率を、無ロールでマルチスケールのネットワークにおけるTransformerブロックのパワーと組み合わせたハイブリッドアーキテクチャである。
我々のネットワークは、最も広く公開されているMRIデータセットである高速MRIデータセット上で、新しい最先端技術を確立する。
論文 参考訳(メタデータ) (2022-03-15T19:26:29Z) - Efficient Transformer for Single Image Super-Resolution [13.234199307504602]
高速かつ高精度な画像超解像を実現するための高効率超解像変換器(ESRT)を提案する。
ESRTは、CNNベースのSRネットワークを前面に設計し、深い特徴を抽出するハイブリッドトランスフォーマーである。
提案されたETは、4191MのGPUメモリのみを占有し、パフォーマンスが向上した。
論文 参考訳(メタデータ) (2021-08-25T07:05:30Z) - Asymmetric CNN for image super-resolution [102.96131810686231]
深層畳み込みニューラルネットワーク(CNN)は、過去5年間で低レベルビジョンに広く適用されています。
画像超解像のための非対称ブロック(AB)、mem?ory拡張ブロック(MEB)、高周波数特徴強調ブロック(HFFEB)からなる非対称CNN(ACNet)を提案する。
我々のACNetは、ブラインドノイズの単一画像超解像(SISR)、ブラインドSISR、ブラインドSISRを効果的に処理できる。
論文 参考訳(メタデータ) (2021-03-25T07:10:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。