論文の概要: DARTS: Double Attention Reference-based Transformer for Super-resolution
- arxiv url: http://arxiv.org/abs/2307.08837v1
- Date: Mon, 17 Jul 2023 20:57:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-19 17:19:55.309146
- Title: DARTS: Double Attention Reference-based Transformer for Super-resolution
- Title(参考訳): DARTS:スーパーレゾリューション用ダブルアテンション参照型トランス
- Authors: Masoomeh Aslahishahri, Jordan Ubbens, Ian Stavness
- Abstract要約: 参照ベース画像超解像のための変換器モデルであるDARTSを提案する。
DARSは2つの画像分布の合同表現を学習し、低解像度の入力画像の内容を強化する。
変換器を用いたモデルが最先端のモデルと競合することを示す。
- 参考スコア(独自算出の注目度): 12.424350934766704
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present DARTS, a transformer model for reference-based image
super-resolution. DARTS learns joint representations of two image distributions
to enhance the content of low-resolution input images through matching
correspondences learned from high-resolution reference images. Current
state-of-the-art techniques in reference-based image super-resolution are based
on a multi-network, multi-stage architecture. In this work, we adapt the double
attention block from the GAN literature, processing the two visual streams
separately and combining self-attention and cross-attention blocks through a
gating attention strategy. Our work demonstrates how the attention mechanism
can be adapted for the particular requirements of reference-based image
super-resolution, significantly simplifying the architecture and training
pipeline. We show that our transformer-based model performs competitively with
state-of-the-art models, while maintaining a simpler overall architecture and
training process. In particular, we obtain state-of-the-art on the SUN80
dataset, with a PSNR/SSIM of 29.83 / .809. These results show that attention
alone is sufficient for the RSR task, without multiple purpose-built
subnetworks, knowledge distillation, or multi-stage training.
- Abstract(参考訳): 参照ベース画像超解像のための変換器モデルであるDARTSを提案する。
DARTSは2つの画像分布の合同表現を学習し、高分解能参照画像から学習した対応性を通じて低分解能入力画像の内容を強化する。
参照ベース画像超解像における最先端技術は、マルチネットワーク・マルチステージアーキテクチャに基づいている。
本研究では,2つの視覚的ストリームを別々に処理し,ゲーティング・アテンション・ストラテジーを通じて自己注意ブロックと相互注意ブロックを組み合わせることにより,GAN文献からの二重注意ブロックを適応させる。
我々の研究は、アテンションメカニズムが参照ベース画像の特定の要求にどのように適応できるかを示し、アーキテクチャとトレーニングパイプラインを著しく単純化する。
トランスフォーマーモデルと最先端モデルとの競合性は高いが,全体的なアーキテクチャとトレーニングプロセスはよりシンプルである。
特に、psnr/ssimが29.83 / .809であるsun80データセットで最先端の技術を得る。
これらの結果から,複数目的のサブネットワーク構築や知識蒸留,多段階訓練などを行わず,RSR作業に十分な注意力を持つことが示唆された。
関連論文リスト
- CWT-Net: Super-resolution of Histopathology Images Using a Cross-scale Wavelet-based Transformer [15.930878163092983]
超解像(SR)は低解像度画像の品質を高めることを目的としており、医用画像に広く応用されている。
我々は,画像ウェーブレット変換とトランスフォーマーアーキテクチャを利用した,CWT-Netと呼ばれる新しいネットワークを提案する。
本モデルは, 性能評価と可視化評価において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2024-09-11T08:26:28Z) - HiTSR: A Hierarchical Transformer for Reference-based Super-Resolution [6.546896650921257]
参照ベース画像超解像のための階層変換モデルであるHiTSRを提案する。
GAN文献の二重注意ブロックを組み込むことで,アーキテクチャとトレーニングパイプラインの合理化を図る。
我々のモデルは、SUN80、Urban100、Manga109を含む3つのデータセットで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-08-30T01:16:29Z) - IPT-V2: Efficient Image Processing Transformer using Hierarchical Attentions [26.09373405194564]
我々は,IPTV2と呼ばれる階層的な注意を払って,効率的な画像処理トランスフォーマアーキテクチャを提案する。
我々は、局所的およびグローバルな受容領域における適切なトークン相互作用を得るために、焦点コンテキスト自己注意(FCSA)とグローバルグリッド自己注意(GGSA)を採用する。
提案した IPT-V2 は,様々な画像処理タスクにおいて,デノナイズ,デブロアリング,デコライニングを網羅し,従来の手法よりも性能と計算の複雑さのトレードオフを得る。
論文 参考訳(メタデータ) (2024-03-31T10:01:20Z) - PUGAN: Physical Model-Guided Underwater Image Enhancement Using GAN with
Dual-Discriminators [120.06891448820447]
鮮明で視覚的に快適な画像を得る方法は、人々の共通の関心事となっている。
水中画像強調(UIE)の課題も、時間とともに現れた。
本稿では,UIE のための物理モデル誘導型 GAN モデルを提案する。
我々のPUGANは質的および定量的な測定値において最先端の手法より優れています。
論文 参考訳(メタデータ) (2023-06-15T07:41:12Z) - Cross-View Hierarchy Network for Stereo Image Super-Resolution [14.574538513341277]
ステレオ画像スーパーレゾリューションは、ビュー間の相補的な情報を活用することにより、高解像度ステレオ画像ペアの品質を向上させることを目的としている。
ステレオ画像超解法(CVHSSR)のためのクロスビュー階層ネットワーク(Cross-View-Hierarchy Network)という新しい手法を提案する。
CVHSSRは、パラメータを減らしながら、他の最先端手法よりも最高のステレオ画像超解像性能を達成する。
論文 参考訳(メタデータ) (2023-04-13T03:11:30Z) - Reference-based Image and Video Super-Resolution via C2-Matching [100.0808130445653]
本稿では,C2-Matchingを提案する。
C2-Matchingは、標準的なCUFED5ベンチマークにおいて、最先端のアーツを著しく上回っている。
また、類似シーンで撮影された画像がHR参照画像として機能するため、C2-Matchingを参照ベースでビデオスーパーリゾリューションタスクに拡張する。
論文 参考訳(メタデータ) (2022-12-19T16:15:02Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - DTGAN: Dual Attention Generative Adversarial Networks for Text-to-Image
Generation [8.26410341981427]
Dual Attention Generative Adversarial Network (DTGAN)は高品質でセマンティックな一貫性のある画像を合成できる。
提案モデルでは,テキスト関連チャネルや画素に注目するようにジェネレータを誘導する,チャネル対応および画素対応アテンションモジュールを導入している。
生成した画像の鮮明な形状と知覚的に均一な色分布を確保することにより、画像の解像度を高めるために、新しいタイプの視覚的損失を利用する。
論文 参考訳(メタデータ) (2020-11-05T08:57:15Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z) - DDet: Dual-path Dynamic Enhancement Network for Real-World Image
Super-Resolution [69.2432352477966]
実画像超解像(Real-SR)は、実世界の高分解能画像(HR)と低分解能画像(LR)の関係に焦点を当てている。
本稿では,Real-SRのためのデュアルパス動的拡張ネットワーク(DDet)を提案する。
特徴表現のための大規模な畳み込みブロックを積み重ねる従来の手法とは異なり、非一貫性のある画像対を研究するためのコンテンツ認識フレームワークを導入する。
論文 参考訳(メタデータ) (2020-02-25T18:24:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。