論文の概要: Hybrid Transformer and CNN Attention Network for Stereo Image
Super-resolution
- arxiv url: http://arxiv.org/abs/2305.05177v1
- Date: Tue, 9 May 2023 05:19:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-10 13:44:37.866482
- Title: Hybrid Transformer and CNN Attention Network for Stereo Image
Super-resolution
- Title(参考訳): ステレオ画像超解像のためのハイブリッドトランスとCNNアテンションネットワーク
- Authors: Ming Cheng, Haoyu Ma, Qiufang Ma, Xiaopeng Sun, Weiqi Li, Zhenyu
Zhang, Xuhan Sheng, Shijie Zhao, Junlin Li, Li Zhang
- Abstract要約: シングルイメージエンハンスメントのためのハイブリッドトランスフォーマーベースネットワークとステレオ情報融合のためのCNNベースネットワークを提案する。
NTIRE 2023 Stereo Image Super-Resolution Challengeのトラック1で23.90dBを獲得し、優勝者となった。
- 参考スコア(独自算出の注目度): 16.06666204606634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-stage strategies are frequently employed in image restoration tasks.
While transformer-based methods have exhibited high efficiency in single-image
super-resolution tasks, they have not yet shown significant advantages over
CNN-based methods in stereo super-resolution tasks. This can be attributed to
two key factors: first, current single-image super-resolution transformers are
unable to leverage the complementary stereo information during the process;
second, the performance of transformers is typically reliant on sufficient
data, which is absent in common stereo-image super-resolution algorithms. To
address these issues, we propose a Hybrid Transformer and CNN Attention Network
(HTCAN), which utilizes a transformer-based network for single-image
enhancement and a CNN-based network for stereo information fusion. Furthermore,
we employ a multi-patch training strategy and larger window sizes to activate
more input pixels for super-resolution. We also revisit other advanced
techniques, such as data augmentation, data ensemble, and model ensemble to
reduce overfitting and data bias. Finally, our approach achieved a score of
23.90dB and emerged as the winner in Track 1 of the NTIRE 2023 Stereo Image
Super-Resolution Challenge.
- Abstract(参考訳): 画像復元には多段階戦略がよく用いられる。
変換器を用いた手法は単一画像の超解像タスクでは高い効率性を示したが、ステレオ超解像タスクではCNN方式に比べて大きな利点は示されていない。
第一に、現在の単一画像の超解像変換器はプロセス中に相補的なステレオ情報を利用できないこと、第二に、変換器の性能は一般的に十分なデータに依存しており、一般的なステレオ画像の超解像アルゴリズムにはない。
これらの課題に対処するため,シングルイメージ拡張のためのトランスフォーマーネットワークとステレオ情報融合のためのCNNネットワークを利用するHybrid Transformer and CNN Attention Network (HTCAN)を提案する。
さらに、マルチパッチトレーニング戦略とウィンドウサイズを大きくして、高解像度の入力ピクセルを活性化する。
また,データ拡張,データアンサンブル,モデルアンサンブルといった他の高度な手法を見直し,オーバーフィッティングやデータバイアスを低減する。
最後に,NTIRE 2023 Stereo Image Super-Resolution Challengeのトラック1で23.90dBを獲得し,優勝者となった。
関連論文リスト
- LKFormer: Large Kernel Transformer for Infrared Image Super-Resolution [5.478440050117844]
本稿では,LKFormer(Large Kernel Transformer)と呼ばれる強力なトランスモデルを提案する。
これは主に、非局所的な特徴モデリングを実行するために、大きなカーネルとの深度的な畳み込みを利用する。
我々は,GPFN(Gated-Pixel Feed-Forward Network)と呼ばれる新しいフィードフォワードネットワーク構造を考案し,ネットワーク内の情報フローを管理するLKFormerの能力を強化した。
論文 参考訳(メタデータ) (2024-01-22T11:28:24Z) - SRTransGAN: Image Super-Resolution using Transformer based Generative
Adversarial Network [16.243363392717434]
トランスをベースとしたエンコーダデコーダネットワークを2倍画像と4倍画像を生成するジェネレータとして提案する。
提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:22:39Z) - Dual Aggregation Transformer for Image Super-Resolution [92.41781921611646]
画像SRのための新しいトランスモデルDual Aggregation Transformerを提案する。
DATは、ブロック間およびブロック内二重方式で、空間次元とチャネル次元にまたがる特徴を集約する。
我々のDATは現在の手法を超越している。
論文 参考訳(メタデータ) (2023-08-07T07:39:39Z) - CoT-MISR:Marrying Convolution and Transformer for Multi-Image
Super-Resolution [3.105999623265897]
解像度の低い画像を変換して高解像度の画像情報を復元する方法は、これまで研究されてきた問題だ。
CoT-MISRネットワークは、畳み込みとtrの利点を利用して、ローカルおよびグローバルな情報を補完する。
論文 参考訳(メタデータ) (2023-03-12T03:01:29Z) - Deep Laparoscopic Stereo Matching with Transformers [46.18206008056612]
トランス構造をうまく利用した自己保持機構は、多くのコンピュータビジョンタスクにおいて有望であることが示されている。
本稿では,CNNの長所と変圧器を統一設計で組み合わせたハイブリッドなディープステレオマッチングフレームワーク(HybridStereoNet)を提案する。
論文 参考訳(メタデータ) (2022-07-25T12:54:32Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Activating More Pixels in Image Super-Resolution Transformer [53.87533738125943]
トランスフォーマーベースの手法は、画像超解像のような低レベルの視覚タスクにおいて顕著な性能を示している。
本稿では,新たなHAT(Hybrid Attention Transformer)を提案する。
提案手法は1dB以上で最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2022-05-09T17:36:58Z) - Lightweight Bimodal Network for Single-Image Super-Resolution via
Symmetric CNN and Recursive Transformer [27.51790638626891]
シングルイメージ・スーパーレゾリューション(SISR)は、ディープラーニングの開発において大きなブレークスルーを達成している。
そこで本研究では,SISRのための軽量バイモーダルネットワーク(LBNet)を提案する。
具体的には,局所特徴抽出と粗い画像再構成に有効なシンメトリCNNを設計する。
論文 参考訳(メタデータ) (2022-04-28T04:43:22Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - Restormer: Efficient Transformer for High-Resolution Image Restoration [118.9617735769827]
畳み込みニューラルネットワーク(CNN)は、大規模データから一般化可能な画像の事前学習をうまく行う。
トランスフォーマーは、自然言語とハイレベルな視覚タスクにおいて、顕著なパフォーマンス向上を示している。
我々のモデルであるRecovery Transformer (Restormer) は、いくつかの画像復元タスクにおいて最先端の結果を得る。
論文 参考訳(メタデータ) (2021-11-18T18:59:10Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。