Fugu-MT 論文翻訳(概要): Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary

論文の概要: Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary

arxiv url: http://arxiv.org/abs/2401.08209v1
Date: Tue, 16 Jan 2024 08:50:44 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 14:35:44.006431
Title: Transcending the Limit of Local Window: Advanced Super-Resolution Transformer with Adaptive Token Dictionary
Title（参考訳）: ローカルウィンドウの限界を超越する:適応トークン辞書を用いた高度超解像トランス
Authors: Leheng Zhang, Yawei Li, Xingyu Zhou, Xiaorui Zhao, Shuhang Gu
Abstract要約: Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。 SR変換器に補助的なAdapeive Token Dictionaryを導入し,ATD-SR法を確立する。提案手法は, 様々な画像超解像ベンチマークにおいて, 最高の性能を実現する。
参考スコア（独自算出の注目度）: 30.506135273928596
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Single Image Super-Resolution is a classic computer vision problem that involves estimating high-resolution (HR) images from low-resolution (LR) ones. Although deep neural networks (DNNs), especially Transformers for super-resolution, have seen significant advancements in recent years, challenges still remain, particularly in limited receptive field caused by window-based self-attention. To address these issues, we introduce a group of auxiliary Adapeive Token Dictionary to SR Transformer and establish an ATD-SR method. The introduced token dictionary could learn prior information from training data and adapt the learned prior to specific testing image through an adaptive refinement step. The refinement strategy could not only provide global information to all input tokens but also group image tokens into categories. Based on category partitions, we further propose a category-based self-attention mechanism designed to leverage distant but similar tokens for enhancing input features. The experimental results show that our method achieves the best performance on various single image super-resolution benchmarks.
Abstract（参考訳）: Single Image Super-Resolutionは、高解像度(HR)画像を低解像度(LR)画像から推定する古典的なコンピュータビジョン問題である。ディープニューラルネットワーク(DNN)、特に超解像度のトランスフォーマーは近年大きな進歩を遂げているが、特にウィンドウベースの自己認識によって引き起こされる限定的な受容領域において、課題は依然として残っている。これらの問題に対処するため、SR変換器に補助的なAdapeive Token Dictionaryを導入し、ATD-SR法を確立する。導入されたトークン辞書は、トレーニングデータから事前情報を学習し、適応的な改良ステップを通じて、特定のテストイメージに先行して学習を適応させることができる。改良戦略は、すべての入力トークンにグローバル情報を提供するだけでなく、イメージトークンをカテゴリにグループ化する。さらに,カテゴリ分割に基づいて,遠距離だが類似したトークンを活用して入力機能を向上させるカテゴリベースの自己照応機構を提案する。実験結果から,本手法は様々な単一画像超解像ベンチマークにおいて最高の性能が得られることがわかった。

関連論文リスト

ATD: Improved Transformer with Adaptive Token Dictionary for Image Restoration [27.622615148357994]
本稿では,画像復元のための新しいトランスフォーマーアーキテクチャであるAdaptive Token Dictionary (ATD)を提案する。我々は、TDCAアテンションマップに埋め込まれたカテゴリ情報を利用して、複数のカテゴリにグループ入力する。 ATDとその軽量版ATD-lightは、複数の画像超解像度ベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2026-03-03T03:56:09Z)
From Local Windows to Adaptive Candidates via Individualized Exploratory: Rethinking Attention for Image Super-Resolution [20.444907448992154]
Single Image Super-Resolution (SISR)は、低解像度(LR)入力から高解像度(HR)画像を再構成することを目的とした、基本的なコンピュータビジョンタスクである。フレキシブルかつトークン適応型アテンション計算を実現するために,IET(Personalized Exploratory Transformer)を提案する。
論文参考訳（メタデータ） (2026-01-13T09:01:20Z)
ViCO: A Training Strategy towards Semantic Aware Dynamic High-Resolution [71.69364653858447]
既存のMLLM(Multimodal Large Language Models)は、画像入力によって導入された視覚トークンの追加により、推論コストが増大する。本研究では,異なる数の視覚トークンを用いて,様々な複雑度の画像を表現可能な,新しい学習アルゴリズムであるVisual Consistency Learning (ViCO)を提案する。実験の結果,モデルの知覚,推論,OCR能力を維持しつつ,視覚トークンの数を最大50%削減できることがわかった。
論文参考訳（メタデータ） (2025-10-14T17:58:10Z)
AuxDet: Auxiliary Metadata Matters for Omni-Domain Infrared Small Target Detection [58.67129770371016]
シーン認識最適化のためのテキストメタデータを組み込むことにより、IRSTDパラダイムを再定義する新しいIRSTDフレームワークを提案する。 AuxDetは最先端の手法を一貫して上回り、堅牢性と正確性を改善する上で補助情報の重要な役割を検証している。
論文参考訳（メタデータ） (2025-05-21T07:02:05Z)
Multi-Resolution Pathology-Language Pre-training Model with Text-Guided Visual Representation [35.50570174431677]
本稿では,WSI(Whole Slide Images)を利用して複数解像度でヒストロジパッチを抽出する新しいマルチレゾリューションパラダイムを提案する。複数の解像度での視覚的テキストアライメントと、より効果的なテキスト誘導視覚表現を確立するためのクロスレゾリューションアライメントを導入する。本モデルは,新しい損失関数に支えられ,特徴表現を豊かにし,識別能力を向上させ,様々な解像度での一般化を促進することを目的としている。
論文参考訳（メタデータ） (2025-04-26T08:44:04Z)
Token-Shuffle: Towards High-Resolution Image Generation with Autoregressive Models [92.18057318458528]
Token-ShuffleはTransformerにおける画像トークンの数を減らす新しい方法である。我々の戦略は、事前訓練されたテキストエンコーダを必要とせず、MLLMが超高解像度画像合成をサポートできるようにする。 GenAIベンチマークでは、2.7Bモデルがハードプロンプトで0.77点、ARモデルLlamaGenが0.18点、拡散モデルLDMが0.15点である。
論文参考訳（メタデータ） (2025-04-24T17:59:56Z)
When Large Vision-Language Model Meets Large Remote Sensing Imagery: Coarse-to-Fine Text-Guided Token Pruning [31.696397337675847]
LVLM(Large Vision-Language Models)は通常、画像処理に限定された事前定義されたグリッドを使用する。動的画像ピラミッド(DIP)を統合したテキスト誘導型トークンプルーニング手法を提案する。提案手法は,同一データを用いた4つのデータセットにおける既存の高分解能戦略よりも優れる。
論文参考訳（メタデータ） (2025-03-10T17:51:16Z)
Context-Based Visual-Language Place Recognition [4.737519767218666]
視覚に基づく位置認識に対する一般的なアプローチは、低レベルの視覚的特徴に依存している。シーン変更に対して堅牢で,追加のトレーニングを必要としない,新しいVPRアプローチを導入する。ゼロショット・言語駆動セマンティックセグメンテーションモデルを用いて画素レベルの埋め込みを抽出し,セマンティックイメージ記述子を構築する。
論文参考訳（メタデータ） (2024-10-25T06:59:11Z)
SSA-Seg: Semantic and Spatial Adaptive Pixel-level Classifier for Semantic Segmentation [11.176993272867396]
本稿ではセマンティック・空間適応(SSA-Seg)を提案し,セマンティックセグメンテーションの課題に対処する。具体的には、固定されたプロトタイプから得られた粗いマスクを用いて、テスト画像のセマンティック領域と空間領域の中心に向けて固定されたプロトタイプを調整する。その結果,提案したSSA-Segは,計算コストを最小限に抑えながら,ベースラインモデルのセグメンテーション性能を著しく向上させることがわかった。
論文参考訳（メタデータ） (2024-05-10T15:14:23Z)
Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文参考訳（メタデータ） (2023-12-24T08:42:37Z)
Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文参考訳（メタデータ） (2023-11-22T11:10:45Z)
Low-Resolution Self-Attention for Semantic Segmentation [96.81482872022237]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文参考訳（メタデータ） (2023-10-08T06:10:09Z)
Learning Resolution-Adaptive Representations for Cross-Resolution Person Re-Identification [49.57112924976762]
低解像度(LR)クエリIDイメージと高解像度(HR)ギャラリーイメージとの整合性を実現する。実際のカメラとの違いにより、クエリ画像が分解能の低下に悩まされることがしばしばあるため、これは困難かつ実用的な問題である。本稿では,問合せ画像の解像度に適応する動的計量を用いて,HRとLRの画像を直接比較するためのSRフリーなパラダイムについて検討する。
論文参考訳（メタデータ） (2022-07-09T03:49:51Z)
Less is More: Pay Less Attention in Vision Transformers [61.05787583247392]
注意の少ないvIsion Transformerは、畳み込み、完全接続層、自己アテンションが、画像パッチシーケンスを処理するためにほぼ同等な数学的表現を持つという事実に基づいている。提案したLITは、画像分類、オブジェクト検出、インスタンス分割を含む画像認識タスクにおいて有望な性能を達成する。
論文参考訳（メタデータ） (2021-05-29T05:26:07Z)
SRWarp: Generalized Image Super-Resolution under Arbitrary Transformation [65.88321755969677]
ディープCNNは、単一の画像超解像を含む画像処理とそのアプリケーションで大きな成功を収めています。近年のアプローチでは、実測値のアップサンプリング要因にまで範囲を広げている。任意の画像変換に向けてSRタスクをさらに一般化するSRWarpフレームワークを提案する。
論文参考訳（メタデータ） (2021-04-21T02:50:41Z)
PULSE: Self-Supervised Photo Upsampling via Latent Space Exploration of Generative Models [77.32079593577821]
PULSE (Photo Upsampling via Latent Space Exploration) は、それまで文献になかった解像度で高解像度でリアルな画像を生成する。本手法は, 従来よりも高分解能, スケールファクターの知覚品質において, 最先端の手法よりも優れていた。
論文参考訳（メタデータ） (2020-03-08T16:44:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。