論文の概要: Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution
- arxiv url: http://arxiv.org/abs/2203.07682v2
- Date: Wed, 16 Mar 2022 11:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 11:27:36.362054
- Title: Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution
- Title(参考訳): 超解像のためのリッチcnn変換機能アグリゲーションネットワーク
- Authors: Jinsu Yoo, Taehoon Kim, Sihaeng Lee, Seung Hwan Kim, Honglak Lee, Tae
Hyun Kim
- Abstract要約: 近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
- 参考スコア(独自算出の注目度): 50.10987776141901
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent vision transformers along with self-attention have achieved promising
results on various computer vision tasks. In particular, a pure
transformer-based image restoration architecture surpasses the existing
CNN-based methods using multi-task pre-training with a large number of
trainable parameters. In this paper, we introduce an effective hybrid
architecture for super-resolution (SR) tasks, which leverages local features
from CNNs and long-range dependencies captured by transformers to further
improve the SR results. Specifically, our architecture comprises of transformer
and convolution branches, and we substantially elevate the performance by
mutually fusing two branches to complement each representation. Furthermore, we
propose a cross-scale token attention module, which allows the transformer to
efficiently exploit the informative relationships among tokens across different
scales. Our proposed method achieves state-of-the-art SR results on numerous
benchmark datasets.
- Abstract(参考訳): 近年の視覚トランスフォーマーは、様々なコンピュータビジョンタスクで有望な結果を得ている。
特に、純粋なトランスフォーマーベースの画像復元アーキテクチャは、多数のトレーニング可能なパラメータを持つマルチタスク事前トレーニングを用いて、既存のCNNベースの手法を超越している。
本稿では,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を利用して,SR結果をさらに改善する,高分解能タスクのための効果的なハイブリッドアーキテクチャを提案する。
具体的には, 変圧器と畳み込み分岐からなるアーキテクチャであり, それぞれの表現を補うために2つの分岐を相互に融合することにより, 性能を実質的に向上させる。
さらに,異なるスケールのトークン間の情報的関係を効率的に活用できる,クロススケールなトークンアテンションモジュールを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
関連論文リスト
- Self-Supervised Pre-Training for Table Structure Recognition Transformer [25.04573593082671]
テーブル構造認識変換器のための自己教師付き事前学習(SSP)手法を提案する。
線形射影変換器とハイブリッドCNN変換器のパフォーマンスギャップは、TSRモデルにおける視覚エンコーダのSSPにより緩和できる。
論文 参考訳(メタデータ) (2024-02-23T19:34:06Z) - CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Vision Transformer with Convolutions Architecture Search [72.70461709267497]
本稿では,畳み込み型アーキテクチャサーチ(VTCAS)を用いたアーキテクチャ探索手法を提案する。
VTCASによって探索された高性能バックボーンネットワークは、畳み込みニューラルネットワークの望ましい特徴をトランスフォーマーアーキテクチャに導入する。
これは、特に低照度屋内シーンにおいて、物体認識のためのニューラルネットワークの堅牢性を高める。
論文 参考訳(メタデータ) (2022-03-20T02:59:51Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z) - XCiT: Cross-Covariance Image Transformers [73.33400159139708]
本稿では,トークンではなく機能チャネルをまたいで機能する自己注意の「伝達」バージョンを提案する。
その結果、XCAはトークン数に線形複雑さを持ち、高解像度画像の効率的な処理を可能にする。
論文 参考訳(メタデータ) (2021-06-17T17:33:35Z) - Analogous to Evolutionary Algorithm: Designing a Unified Sequence Model [58.17021225930069]
実演的進化アルゴリズム(EA)と類似した視覚変換器の合理性について説明する。
我々は、より効率的なEATモデルを提案し、様々なタスクに柔軟に対処するタスク関連ヘッドを設計する。
近年のビジョントランスに比べて,イメージネット分類作業における最先端の成果が得られている。
論文 参考訳(メタデータ) (2021-05-31T16:20:03Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。