論文の概要: HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution
- arxiv url: http://arxiv.org/abs/2408.16959v1
- Date: Fri, 30 Aug 2024 01:16:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-02 16:49:05.140728
- Title: HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution
- Title(参考訳): HiTSR: 参照型スーパーリゾリューションのための階層変換器
- Authors: Masoomeh Aslahishahri, Jordan Ubbens, Ian Stavness,
- Abstract要約: 参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 6.546896650921257
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose HiTSR, a hierarchical transformer model for reference-based image super-resolution, which enhances low-resolution input images by learning matching correspondences from high-resolution reference images. Diverging from existing multi-network, multi-stage approaches, we streamline the architecture and training pipeline by incorporating the double attention block from GAN literature. Processing two visual streams independently, we fuse self-attention and cross-attention blocks through a gating attention strategy. The model integrates a squeeze-and-excitation module to capture global context from the input images, facilitating long-range spatial interactions within window-based attention blocks. Long skip connections between shallow and deep layers further enhance information flow. Our model demonstrates superior performance across three datasets including SUN80, Urban100, and Manga109. Specifically, on the SUN80 dataset, our model achieves PSNR/SSIM values of 30.24/0.821. These results underscore the effectiveness of attention mechanisms in reference-based image super-resolution. The transformer-based model attains state-of-the-art results without the need for purpose-built subnetworks, knowledge distillation, or multi-stage training, emphasizing the potency of attention in meeting reference-based image super-resolution requirements.
- Abstract(参考訳): 本稿では,参照ベース画像の階層変換モデルであるHiTSRを提案する。
既存のマルチネットワーク、マルチステージアプローチから切り離して、GAN文献の二重注意ブロックを組み込むことで、アーキテクチャとトレーニングパイプラインを合理化します。
2つの視覚ストリームを個別に処理し、注視戦略を通じて自己注意ブロックと横断注意ブロックを融合する。
このモデルは、入力画像からグローバルなコンテキストをキャプチャし、ウィンドウベースのアテンションブロック内での長距離空間的相互作用を促進するために、シャープ・アンド・エキサイティング・モジュールを統合している。
浅い層と深い層の間の長いスキップ接続により、情報の流れがさらに向上する。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
具体的には、SUN80データセット上で、PSNR/SSIM値が30.24/0.821である。
これらの結果は、参照ベース画像の超解像におけるアテンションメカニズムの有効性を裏付けるものである。
トランスフォーマー・ベース・モデルは, 汎用サブネット, 知識蒸留, 多段階訓練を必要とせず, 参照ベース画像の超解像要求を満たす際の注意力を強調する。
関連論文リスト
- Global Semantic-Guided Sub-image Feature Weight Allocation in High-Resolution Large Vision-Language Models [50.98559225639266]
画像全体の意味的関連性が高いサブイメージは、モデルの視覚的理解能力を維持するためによりリッチな視覚情報をカプセル化する。
Global Semantic-Guided Weight Allocator (GSWA)モジュールはその相対情報密度に基づいてサブイメージに重みを割り当てる。
SleighVLは軽量だがハイパフォーマンスなモデルであり、同等のパラメータを持つモデルよりも優れており、より大きなモデルと競合し続けている。
論文 参考訳(メタデータ) (2025-01-24T06:42:06Z) - Hierarchical Information Flow for Generalized Efficient Image Restoration [108.83750852785582]
画像復元のための階層型情報フロー機構であるHi-IRを提案する。
Hi-IRは、劣化した画像を表す階層的な情報ツリーを3段階にわたって構築する。
7つの共通画像復元タスクにおいて、Hi-IRはその有効性と一般化性を達成する。
論文 参考訳(メタデータ) (2024-11-27T18:30:08Z) - ECAFormer: Low-light Image Enhancement using Cross Attention [11.554554006307836]
低照度画像強調(LLIE)はコンピュータビジョンにおいて重要である。
我々はクロスアテンショントランス(ECAFormer)による階層的相互強化を設計する。
我々は,ECAFormerが複数のベンチマークで競合性能に到達し,PSNRを最適化法よりも3%近く改善したことを示す。
論文 参考訳(メタデータ) (2024-06-19T07:21:31Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - Rotated Multi-Scale Interaction Network for Referring Remote Sensing Image Segmentation [63.15257949821558]
Referring Remote Sensing Image (RRSIS)は、コンピュータビジョンと自然言語処理を組み合わせた新しい課題である。
従来の参照画像(RIS)アプローチは、空中画像に見られる複雑な空間スケールと向きによって妨げられている。
本稿ではRMSIN(Rotated Multi-Scale Interaction Network)を紹介する。
論文 参考訳(メタデータ) (2023-12-19T08:14:14Z) - DARTS: Double Attention Reference-based Transformer for Super-resolution [12.424350934766704]
参照ベース画像超解像のための変換器モデルであるDARTSを提案する。
DARSは2つの画像分布の合同表現を学習し、低解像度の入力画像の内容を強化する。
変換器を用いたモデルが最先端のモデルと競合することを示す。
論文 参考訳(メタデータ) (2023-07-17T20:57:16Z) - Cross-Spatial Pixel Integration and Cross-Stage Feature Fusion Based
Transformer Network for Remote Sensing Image Super-Resolution [13.894645293832044]
変換器を用いたモデルでは、リモートセンシング画像超解像(RSISR)の競合性能が示されている。
本稿では,RSISRのための新しいトランスアーキテクチャであるCross-Spatial Pixel IntegrationとCross-Stage Feature Fusion Based Transformer Network (SPIFFNet)を提案する。
提案手法は,画像全体のグローバル認知と理解を効果的に促進し,機能統合の効率化を図っている。
論文 参考訳(メタデータ) (2023-07-06T13:19:06Z) - Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。
ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。
CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文 参考訳(メタデータ) (2023-04-13T03:11:30Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。