論文の概要: MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2411.17214v1
- Date: Tue, 26 Nov 2024 08:30:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:35:05.574049
- Title: MAT: Multi-Range Attention Transformer for Efficient Image Super-Resolution
- Title(参考訳): MAT:高効率画像超解像用マルチランジアテンショントランス
- Authors: Chengxing Xie, Xiaoming Zhang, Kai Zhang, Linze Li, Yuqian Fu, Biao Gong, Tianrui Li,
- Abstract要約: 多様な空間範囲にわたる注意の柔軟な統合は、大幅なパフォーマンス向上をもたらす可能性がある。
スーパーレゾリューション(SR)タスクに適したマルチランジアテンショントランス(MAT)を提案する。
MATは、様々な空間範囲にまたがる依存関係を包含し、その特徴表現の多様性と有効性を向上させる。
- 参考スコア(独自算出の注目度): 14.265237560766268
- License:
- Abstract: Recent advances in image super-resolution (SR) have significantly benefited from the incorporation of Transformer architectures. However, conventional techniques aimed at enlarging the self-attention window to capture broader contexts come with inherent drawbacks, especially the significantly increased computational demands. Moreover, the feature perception within a fixed-size window of existing models restricts the effective receptive fields and the intermediate feature diversity. This study demonstrates that a flexible integration of attention across diverse spatial extents can yield significant performance enhancements. In line with this insight, we introduce Multi-Range Attention Transformer (MAT) tailored for SR tasks. MAT leverages the computational advantages inherent in dilation operation, in conjunction with self-attention mechanism, to facilitate both multi-range attention (MA) and sparse multi-range attention (SMA), enabling efficient capture of both regional and sparse global features. Further coupled with local feature extraction, MAT adeptly capture dependencies across various spatial ranges, improving the diversity and efficacy of its feature representations. We also introduce the MSConvStar module, which augments the model's ability for multi-range representation learning. Comprehensive experiments show that our MAT exhibits superior performance to existing state-of-the-art SR models with remarkable efficiency (~3.3 faster than SRFormer-light).
- Abstract(参考訳): 画像超解像(SR)の最近の進歩は、トランスフォーマーアーキテクチャの組み入れによって大きな恩恵を受けている。
しかし、より広いコンテキストを捉えるために自己注意ウィンドウを拡大することを目的とした従来の手法は、特に計算要求が大幅に増加するという固有の欠点を生んでいる。
さらに、既存モデルの固定サイズウィンドウ内の特徴知覚は、有効受容場と中間的特徴の多様性を制限する。
本研究は,多様な空間範囲にわたる注意の柔軟な統合が,大幅な性能向上をもたらすことを示した。
この知見に基づき、SRタスクに適したマルチランジアテンショントランス(MAT)を導入する。
MATは、自己注意機構とともに、拡張操作に固有の計算上の優位性を活用し、マルチレンジアテンション(MA)とスパースマルチレンジアテンション(SMA)の両方を容易にし、地域的特徴とスパースグローバル特徴の両方を効率的に捉えることができる。
さらに、局所的特徴抽出と組み合わせて、MATは様々な空間範囲の依存関係を包含し、特徴表現の多様性と有効性を向上させる。
また、MSConvStarモジュールを導入し、マルチレンジ表現学習におけるモデルの能力を高める。
総合的な実験により、我々のMATは既存の最先端SRモデルよりも優れた性能を示し、優れた効率(SRFormer-lightより約3.3高速)を示す。
関連論文リスト
- HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。
これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。
本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。
また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文 参考訳(メタデータ) (2024-10-04T06:19:29Z) - Brain-Inspired Stepwise Patch Merging for Vision Transformers [6.108377966393714]
本稿では,ステップワイズ・パッチ・マージ(SPM)と呼ばれる新しい手法を提案する。
ImageNet-1K、COCO、ADE20Kなどのベンチマークデータセットで実施された大規模な実験は、SPMが様々なモデルの性能を大幅に改善することを示した。
論文 参考訳(メタデータ) (2024-09-11T03:04:46Z) - MaVEn: An Effective Multi-granularity Hybrid Visual Encoding Framework for Multimodal Large Language Model [49.931663904599205]
MaVEnは、マルチモーダル大言語モデル(MLLM)のマルチモーダル推論能力を高めるために設計された革新的なフレームワークである。
MaVEnは複雑なマルチイメージのシナリオにおけるMLLMの理解を著しく向上するとともに,単一イメージのコンテキストにおけるパフォーマンスも向上することを示す。
論文 参考訳(メタデータ) (2024-08-22T11:57:16Z) - AMMUNet: Multi-Scale Attention Map Merging for Remote Sensing Image Segmentation [4.618389486337933]
マルチスケールアテンションマップをマージするUNetベースのフレームワークであるAMMUNetを提案する。
提案するAMMMは,マルチスケールアテンションマップを固定マスクテンプレートを用いた統一表現に効果的に結合する。
提案手法は,Vayhingenデータセットでは75.48%,Potsdamデータセットでは77.90%という顕著な平均交叉(mIoU)を達成した。
論文 参考訳(メタデータ) (2024-04-20T15:23:15Z) - Multi-Scale Implicit Transformer with Re-parameterize for
Arbitrary-Scale Super-Resolution [2.4865475189445405]
マルチスケールインプリシットトランス(MSIT)
MSITは、MSNO(Multi-scale Neural Operator)とMSSA(Multi-scale Self-Attention)から構成される。
論文 参考訳(メタデータ) (2024-03-11T09:23:20Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - FLatten Transformer: Vision Transformer using Focused Linear Attention [80.61335173752146]
線形注意(linear attention)は、その線形複雑性に対して、はるかに効率的な代替手段を提供する。
現在の線形アテンションアプローチは、大きなパフォーマンス劣化に悩まされるか、追加の計算オーバーヘッドを導入するかのいずれかである。
本研究では,高効率と表現性の両方を実現するために,新しいFocused Linear Attentionモジュールを提案する。
論文 参考訳(メタデータ) (2023-08-01T10:37:12Z) - AugDiff: Diffusion based Feature Augmentation for Multiple Instance
Learning in Whole Slide Image [15.180437840817788]
弱教師付き学習のための強力な戦略であるマルチインスタンス学習(MIL)は、ギガピクセル全スライド画像(WSI)上で様々な予測タスクを実行することができる。
拡散モデル(DM)を初めてMILに導入し,AugDiffと呼ばれる機能拡張フレームワークを提案する。
我々は,AugDiffの性能を評価するために,3つの異なる癌データセット,2つの異なる特徴抽出器,および3つのMILアルゴリズムについて広範な実験を行った。
論文 参考訳(メタデータ) (2023-03-11T10:36:27Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。