論文の概要: A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift
- arxiv url: http://arxiv.org/abs/2411.10231v2
- Date: Sat, 01 Nov 2025 12:57:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-04 16:14:21.816776
- Title: A Low-Resolution Image is Worth 1x1 Words: Enabling Fine Image Super-Resolution with Transformers and TaylorShift
- Title(参考訳): 低分解能画像は1x1ワードである:変換器とテイラーシフトによる微細画像の超解法
- Authors: Sanath Budakegowdanadoddi Nagaraju, Brian Bernhard Moser, Tobias Christian Nauen, Stanislav Frolov, Federico Raue, Andreas Dengel,
- Abstract要約: TaylorIRは1x1パッチの埋め込みを真にピクセルワイドな推論のために強制するプラグイン・アンド・プレイのフレームワークである。
最先端のパフォーマンスを提供し、メモリ消費を最大60%削減する。
- 参考スコア(独自算出の注目度): 7.8465046073301465
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures have recently advanced the image reconstruction quality of super-resolution (SR) models. Yet, their scalability remains limited by quadratic attention costs and coarse patch embeddings that weaken pixel-level fidelity. We propose TaylorIR, a plug-and-play framework that enforces 1x1 patch embeddings for true pixel-wise reasoning and replaces conventional self-attention with TaylorShift, a Taylor-series-based attention mechanism enabling full token interactions with near-linear complexity. Across multiple SR benchmarks, TaylorIR delivers state-of-the-art performance while reducing memory consumption by up to 60%, effectively bridging the gap between fine-grained detail restoration and efficient transformer scaling.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、最近、超解像(SR)モデルの画像再構成品質が向上した。
しかし、そのスケーラビリティは、ピクセルレベルの忠実度を弱めるような、二次的な注意コストと粗いパッチ埋め込みによって制限されている。
そこで我々はTaylorIRを提案する。これは1x1パッチの埋め込みを真のピクセルワイズ推論に適用し、従来の自己アテンションをTaylorShiftに置き換えるプラグイン・アンド・プレイフレームワークである。
複数のSRベンチマークを通じてTaylorIRは、最先端のパフォーマンスを提供しながら、メモリ消費を最大60%削減し、きめ細かいディテール復元と効率的なトランスフォーマースケーリングのギャップを効果的に埋める。
関連論文リスト
- FourierSR: A Fourier Token-based Plugin for Efficient Image Super-Resolution [21.909175743080713]
画像超解像(SR)は、高解像度画像に低解像度画像を復元することを目的としており、SR効率を改善することが大きな課題である。
SRの一般的な単位、例えば畳み込みやウィンドウベースのトランスフォーマーは、受容場が限られている。
本稿では、FourierSRと呼ばれるFourierトークンベースのプラグインを提案し、SRを均一に改善する。
論文 参考訳(メタデータ) (2025-03-13T04:50:55Z) - Contrast: A Hybrid Architecture of Transformers and State Space Models for Low-Level Vision [3.574664325523221]
textbfContrastは、textbfConvolutional、textbfTransformer、textbfState Spaceコンポーネントを組み合わせたハイブリッドSRモデルである。
変換器と状態空間機構を統合することで、textbfContrastは各アプローチの欠点を補償し、グローバルコンテキストモデリングとピクセルレベルの精度を向上させる。
論文 参考訳(メタデータ) (2025-01-23T03:34:14Z) - MB-TaylorFormer V2: Improved Multi-branch Linear Transformer Expanded by Taylor Formula for Image Restoration [85.41380152286479]
MB-TaylorFormer V2は複数の画像復元タスクにおいて最先端の性能を達成することを示す。
提案したモデルでは,TaylorFormer V2のTaylorFormerの2番目のバージョンとして,粗大な特徴を同時に処理する機能を備えている。
論文 参考訳(メタデータ) (2025-01-08T13:13:52Z) - HiT-SR: Hierarchical Transformer for Efficient Image Super-Resolution [70.52256118833583]
変換器ベースSRネットワークを階層変換器(HiT-SR)に変換する戦略を提案する。
具体的には、一般的に使われている固定された小さなウィンドウを階層的なウィンドウに置き換えて、異なるスケールで機能を集約する。
大規模なウィンドウに必要となる計算量を考慮すると、窓の大きさに線形な複雑性を持つ空間チャネル相関法をさらに設計する。
論文 参考訳(メタデータ) (2024-07-08T12:42:10Z) - CFAT: Unleashing TriangularWindows for Image Super-resolution [5.130320840059732]
トランスフォーマーモデルが画像超解像(SR)の分野に革命をもたらした
境界レベルの歪みを軽減するために,矩形ウィンドウと同期して動作する非重なりの三角形ウィンドウ手法を提案する。
提案モデルでは,他の最先端SRアーキテクチャに比べて0.7dB性能が向上した。
論文 参考訳(メタデータ) (2024-03-24T13:31:31Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - PTSR: Patch Translator for Image Super-Resolution [16.243363392717434]
画像超解像(PTSR)のためのパッチトランスレータを提案し,この問題に対処する。
提案するPTSRは、畳み込み動作のないトランスフォーマーベースGANネットワークである。
マルチヘッドアテンションを利用した改良パッチを再生するための新しいパッチトランスレータモジュールを提案する。
論文 参考訳(メタデータ) (2023-10-20T01:45:00Z) - Vicinity Vision Transformer [53.43198716947792]
線形複雑度を有する視覚変換器に局所性バイアスを導入するビシニティ注意法を提案する。
提案手法は,従来の手法よりも50%少ないパラメータで,最先端の画像分類精度を実現する。
論文 参考訳(メタデータ) (2022-06-21T17:33:53Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - HRFormer: High-Resolution Transformer for Dense Prediction [99.6060997466614]
本稿では高分解能な予測タスクのための高分解能表現を学習する高分解能変換器(HRFormer)を提案する。
我々は高分解能畳み込みネットワーク(HRNet)で導入された多分解能並列設計を利用する。
人間のポーズ推定とセマンティックセグメンテーションにおける高分解能トランスフォーマの有効性を示す。
論文 参考訳(メタデータ) (2021-10-18T15:37:58Z) - Improved Transformer for High-Resolution GANs [69.42469272015481]
この課題に対処するために、Transformerに2つの重要な要素を紹介します。
実験で提案したHiTは、条件のないImageNetの31.87と2.95のFIDスコアをそれぞれ128×128$とFFHQの256×256$で達成していることを示す。
論文 参考訳(メタデータ) (2021-06-14T17:39:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。