論文の概要: Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary
- arxiv url: http://arxiv.org/abs/2401.08209v2
- Date: Thu, 18 Jan 2024 07:59:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 13:07:51.801066
- Title: Transcending the Limit of Local Window: Advanced Super-Resolution
Transformer with Adaptive Token Dictionary
- Title(参考訳): ローカルウィンドウの限界を超越する:適応トークン辞書を用いた高度超解像トランス
- Authors: Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
- Abstract要約: Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
SR変換器にアダプティブトークン辞書群を導入し,ATD-SR法を確立する。
提案手法は, 様々な画像超解像ベンチマークにおいて, 最高の性能を実現する。
- 参考スコア(独自算出の注目度): 30.506135273928596
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Single Image Super-Resolution is a classic computer vision problem that
involves estimating high-resolution (HR) images from low-resolution (LR) ones.
Although deep neural networks (DNNs), especially Transformers for
super-resolution, have seen significant advancements in recent years,
challenges still remain, particularly in limited receptive field caused by
window-based self-attention. To address these issues, we introduce a group of
auxiliary Adaptive Token Dictionary to SR Transformer and establish an ATD-SR
method. The introduced token dictionary could learn prior information from
training data and adapt the learned prior to specific testing image through an
adaptive refinement step. The refinement strategy could not only provide global
information to all input tokens but also group image tokens into categories.
Based on category partitions, we further propose a category-based
self-attention mechanism designed to leverage distant but similar tokens for
enhancing input features. The experimental results show that our method
achieves the best performance on various single image super-resolution
benchmarks.
- Abstract(参考訳): Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。
ディープニューラルネットワーク(DNN)、特に超解像度のトランスフォーマーは近年大きな進歩を遂げているが、特にウィンドウベースの自己認識によって引き起こされる限定的な受容領域において、課題は依然として残っている。
これらの問題に対処するため、SR Transformerに補助的なAdaptive Token Dictionaryを導入し、ATD-SR法を確立する。
導入されたトークン辞書は、トレーニングデータから事前情報を学習し、適応的な改良ステップを通じて、特定のテストイメージに先行して学習を適応させることができる。
改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、イメージトークンをカテゴリにグループ化する。
さらに,カテゴリ分割に基づいて,遠距離だが類似したトークンを活用して入力機能を向上させるカテゴリベースの自己照応機構を提案する。
実験結果から,本手法は様々な単一画像超解像ベンチマークにおいて最高の性能が得られることがわかった。
関連論文リスト
- Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。
シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。
ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文 参考訳(メタデータ) (2024-10-25T06:59:11Z) - SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
本稿ではセマンティック・空間適応(SSA-Seg)を提案し,セマンティックセグメンテーションの課題に対処する。
具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。
その結果,提案したSSA-Segは,計算コストを最小限に抑えながら,ベースラインモデルのセグメンテーション性能を著しく向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-10T15:14:23Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z) - Learning Resolution-Adaptive Representations for Cross-Resolution Person
Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。
実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。
本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文 参考訳(メタデータ) (2022-07-09T03:49:51Z) - Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。
提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文 参考訳(メタデータ) (2021-05-29T05:26:07Z) - SRWarp: Generalized Image Super-Resolution under Arbitrary
Transformation [65.88321755969677]
ディープCNNは、単一の画像超解像を含む画像処理とそのアプリケーションで大きな成功を収めています。
近年のアプローチでは、実測値のアップサンプリング要因にまで範囲を広げている。
任意の画像変換に向けてSRタスクをさらに一般化するSRWarpフレームワークを提案する。
論文 参考訳(メタデータ) (2021-04-21T02:50:41Z) - PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of
Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。
本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2020-03-08T16:44:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。