論文の概要: Dual Aggregation Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2308.03364v2
- Date: Fri, 11 Aug 2023 05:21:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-14 16:14:37.785514
- Title: Dual Aggregation Transformer for Image Super-Resolution
- Title(参考訳): 画像超解像用デュアルアグリゲーショントランス
- Authors: Zheng Chen, Yulun Zhang, Jinjin Gu, Linghe Kong, Xiaokang Yang, Fisher
Yu
- Abstract要約: 画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
- 参考スコア(独自算出の注目度): 92.41781921611646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer has recently gained considerable popularity in low-level vision
tasks, including image super-resolution (SR). These networks utilize
self-attention along different dimensions, spatial or channel, and achieve
impressive performance. This inspires us to combine the two dimensions in
Transformer for a more powerful representation capability. Based on the above
idea, we propose a novel Transformer model, Dual Aggregation Transformer (DAT),
for image SR. Our DAT aggregates features across spatial and channel
dimensions, in the inter-block and intra-block dual manner. Specifically, we
alternately apply spatial and channel self-attention in consecutive Transformer
blocks. The alternate strategy enables DAT to capture the global context and
realize inter-block feature aggregation. Furthermore, we propose the adaptive
interaction module (AIM) and the spatial-gate feed-forward network (SGFN) to
achieve intra-block feature aggregation. AIM complements two self-attention
mechanisms from corresponding dimensions. Meanwhile, SGFN introduces additional
non-linear spatial information in the feed-forward network. Extensive
experiments show that our DAT surpasses current methods. Code and models are
obtainable at https://github.com/zhengchen1999/DAT.
- Abstract(参考訳): Transformerは最近、画像超解像(SR)を含む低レベルの視覚タスクでかなりの人気を得ている。
これらのネットワークは、異なる次元、空間またはチャネルに沿って自己注意を利用し、印象的なパフォーマンスを達成する。
これにより、トランスフォーマーの2次元を組み合わせることで、より強力な表現能力を得ることができます。
そこで本稿では,画像srのための新しいトランスフォーマーモデルであるdual aggregation transformer (dat)を提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
具体的には、連続したトランスフォーマーブロックに空間的およびチャネル的自己アテンションを交互に適用する。
代替戦略により、DATはグローバルコンテキストをキャプチャし、ブロック間フィーチャーアグリゲーションを実現することができる。
さらに,ブロック内特徴集約を実現するために,適応インタラクションモジュール(aim)と空間ゲートフィードフォワードネットワーク(sgfn)を提案する。
AIMは2つの自己注意機構を対応する次元から補完する。
一方、SGFNはフィードフォワードネットワークに非線形空間情報を導入する。
大規模な実験により、我々のDATは現在の方法を上回ることがわかった。
コードとモデルはhttps://github.com/zhengchen1999/datで取得できる。
関連論文リスト
- A Hybrid Transformer-Mamba Network for Single Image Deraining [70.64069487982916]
既存のデラリング変換器では、固定レンジウィンドウやチャネル次元に沿って自己アテンション機構を採用している。
本稿では,多分岐型トランスフォーマー・マンバネットワーク(Transformer-Mamba Network,TransMamba Network,Transformer-Mamba Network)を提案する。
論文 参考訳(メタデータ) (2024-08-31T10:03:19Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Dual-Stream Attention Transformers for Sewer Defect Classification [2.5499055723658097]
効率的な下水道欠陥分類のためのRGBおよび光フロー入力を処理するデュアルストリーム・ビジョン・トランスフォーマアーキテクチャを提案する。
私たちのキーとなるアイデアは、RGBとモーションストリームの相補的な強みを活用するために、自己注意の正則化を使用することです。
自己注意型レギュレータによる動作キューの活用により、RGBアテンションマップの整列と強化を行い、ネットワークが関連する入力領域に集中できるようにする。
論文 参考訳(メタデータ) (2023-11-07T02:31:51Z) - 2-D SSM: A General Spatial Layer for Visual Transformers [79.4957965474334]
コンピュータビジョンの中心的な目的は、適切な2次元帰納バイアスを持つモデルを設計することである。
多次元状態空間モデルの表現的変動を利用する。
本稿では,効率的なパラメータ化,高速化計算,適切な正規化方式を提案する。
論文 参考訳(メタデータ) (2023-06-11T09:41:37Z) - Hierarchical Cross-modal Transformer for RGB-D Salient Object Detection [6.385624548310884]
本稿では,新しいマルチモーダルトランスである階層型クロスモーダルトランス (HCT) を提案する。
2つのモードから全てのパッチを直接接続する以前のマルチモーダル変圧器とは異なり、クロスモーダル相補性は階層的に検討する。
本稿では,Transformer (FPT) 用のFeature Pyramidモジュールを提案する。
論文 参考訳(メタデータ) (2023-02-16T03:23:23Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。