論文の概要: CATformer: Contrastive Adversarial Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2508.17708v1
- Date: Mon, 25 Aug 2025 06:30:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-26 18:43:45.660946
- Title: CATformer: Contrastive Adversarial Transformer for Image Super-Resolution
- Title(参考訳): CATformer:画像超解像用コントラスト逆変換器
- Authors: Qinyi Tian, Spence Cox, Laura E. Dalton,
- Abstract要約: 超解像度は、低解像度画像の品質を高めるための有望な技術である。
本研究では,拡散にインスパイアされた特徴改善と逆学習を統合した新しいニューラルネットワークであるCATformerを紹介する。
CATformerは、効率と視覚的画質の両方において、最近のトランスフォーマーベースおよび拡散インスパイアされた手法より優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Super-resolution remains a promising technique to enhance the quality of low-resolution images. This study introduces CATformer (Contrastive Adversarial Transformer), a novel neural network integrating diffusion-inspired feature refinement with adversarial and contrastive learning. CATformer employs a dual-branch architecture combining a primary diffusion-inspired transformer, which progressively refines latent representations, with an auxiliary transformer branch designed to enhance robustness to noise through learned latent contrasts. These complementary representations are fused and decoded using deep Residual-in-Residual Dense Blocks for enhanced reconstruction quality. Extensive experiments on benchmark datasets demonstrate that CATformer outperforms recent transformer-based and diffusion-inspired methods both in efficiency and visual image quality. This work bridges the performance gap among transformer-, diffusion-, and GAN-based methods, laying a foundation for practical applications of diffusion-inspired transformers in super-resolution.
- Abstract(参考訳): 超解像度は、低解像度画像の品質を高めるための有望な技術である。
本研究では,CATformer(Contrastive Adversarial Transformer)を紹介した。
CATformerは、遅延表現を段階的に洗練する一次拡散インスパイアされた変換器と、学習された遅延コントラストを通して雑音に対する堅牢性を高めるために設計された補助変換器ブランチを組み合わせた二重分岐アーキテクチャを採用している。
これらの相補的表現は、再構築品質を向上させるために、深層残留ダンスブロックを用いて融合し、復号化される。
ベンチマークデータセットの大規模な実験により、CATformerは、効率性と視覚的画質の両方において、最近のトランスフォーマーベースおよび拡散インスパイアされた手法より優れていることが示された。
この研究は, トランス, 拡散, GANに基づく手法間の性能ギャップを橋渡しし, 超解像における拡散誘導変換器の実用化のための基礎を築いた。
関連論文リスト
- TDiR: Transformer based Diffusion for Image Restoration Tasks [19.992144590243836]
難易度の高い環境で撮影された画像は、ノイズ、カラーキャスト、ぼかし、光散乱など、様々な種類の劣化を経験することが多い。
これらの効果は、画像の品質を著しく低下させ、オブジェクトの検出、マッピング、分類といった下流タスクの適用性を阻害する。
画像復元作業に対処し,劣化画像の品質向上を目的としたトランスフォーマーベース拡散モデルを開発した。
論文 参考訳(メタデータ) (2025-06-25T10:28:13Z) - NAMI: Efficient Image Generation via Bridged Progressive Rectified Flow Transformers [10.84639914909133]
フローベースのトランスフォーマーモデルは、最先端の画像生成性能を達成しているが、しばしば高い推論遅延と計算コストに悩まされている。
本稿では, 時間的, 空間的, 建築的次元にわたって生成過程を分解するBridged Progressive Rectified Flow Transformers (NAMI)を提案する。
論文 参考訳(メタデータ) (2025-03-12T10:38:58Z) - Effective Diffusion Transformer Architecture for Image Super-Resolution [63.254644431016345]
画像超解像のための効果的な拡散変換器(DiT-SR)を設計する。
実際には、DiT-SRは全体のU字型アーキテクチャを活用し、すべての変圧器ブロックに対して均一な等方性設計を採用する。
我々は、広く使われているAdaLNの制限を分析し、周波数適応型時間-ステップ条件付けモジュールを提案する。
論文 参考訳(メタデータ) (2024-09-29T07:14:16Z) - SRTransGAN: Image Super-Resolution using Transformer based Generative
Adversarial Network [16.243363392717434]
トランスをベースとしたエンコーダデコーダネットワークを2倍画像と4倍画像を生成するジェネレータとして提案する。
提案したSRTransGANは、PSNRとSSIMのスコアの平均で、既存の手法よりも4.38%優れていた。
論文 参考訳(メタデータ) (2023-12-04T16:22:39Z) - DA-TransUNet: Integrating Spatial and Channel Dual Attention with
Transformer U-Net for Medical Image Segmentation [5.5582646801199225]
本研究では,DA-TransUNetと呼ばれる新しい深層画像分割フレームワークを提案する。
トランスフォーマーとデュアルアテンションブロック(DA-Block)を従来のU字型アーキテクチャに統合することを目的としている。
以前のトランスフォーマーベースのU-netモデルとは異なり、DA-TransUNetはトランスフォーマーとDA-Blockを使用してグローバルな特徴とローカルな特徴だけでなく、画像固有の位置とチャネルの特徴を統合する。
論文 参考訳(メタデータ) (2023-10-19T08:25:03Z) - Image Deblurring by Exploring In-depth Properties of Transformer [86.7039249037193]
我々は、事前訓練された視覚変換器(ViT)から抽出した深い特徴を活用し、定量的な測定値によって測定された性能を犠牲にすることなく、回復した画像のシャープ化を促進する。
得られた画像と対象画像の変換器特徴を比較することにより、事前学習された変換器は、高解像度のぼやけた意味情報を提供する。
特徴をベクトルとみなし、抽出された画像から抽出された表現とユークリッド空間における対象表現との差を計算する。
論文 参考訳(メタデータ) (2023-03-24T14:14:25Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - CSformer: Bridging Convolution and Transformer for Compressive Sensing [65.22377493627687]
本稿では,CNNからの詳細な空間情報を活用するためのハイブリッドフレームワークと,表現学習の強化を目的としたトランスフォーマーが提供するグローバルコンテキストを統合することを提案する。
提案手法は、適応的なサンプリングとリカバリからなるエンドツーエンドの圧縮画像センシング手法である。
実験により, 圧縮センシングにおける専用トランスアーキテクチャの有効性が示された。
論文 参考訳(メタデータ) (2021-12-31T04:37:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。