論文の概要: SAT: Selective Aggregation Transformer for Image Super-Resolution
- arxiv url: http://arxiv.org/abs/2604.07994v2
- Date: Fri, 10 Apr 2026 03:37:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-13 13:51:27.851438
- Title: SAT: Selective Aggregation Transformer for Image Super-Resolution
- Title(参考訳): SAT:画像超解像のための選択的凝集変圧器
- Authors: Dinh Phu Tran, Thao Do, Saad Wazir, Seongah Kim, Seon Kwon Kim, Daeyoung Kim,
- Abstract要約: トランスフォーマーベースのアプローチは、長距離依存をモデル化することによって、画像超解像に革命をもたらした。
最近のウィンドウベースアテンション手法は、計算をローカライズすることでこれを緩和するが、しばしば制限された受容場が得られる。
この新しいトランスは、長距離依存を効率的に捕捉し、モデル受容場を拡大する。
SATは最先端のPFTを最大0.22dBで上回り、FLOPの総数は最大27%削減できることを示す。
- 参考スコア(独自算出の注目度): 5.516233117319822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based approaches have revolutionized image super-resolution by modeling long-range dependencies. However, the quadratic computational complexity of vanilla self-attention mechanisms poses significant challenges, often leading to compromises between efficiency and global context exploitation. Recent window-based attention methods mitigate this by localizing computations, but they often yield restricted receptive fields. To mitigate these limitations, we propose Selective Aggregation Transformer (SAT). This novel transformer efficiently captures long-range dependencies, leading to an enlarged model receptive field by selectively aggregating key-value matrices (reducing the number of tokens by 97\%) via our Density-driven Token Aggregation algorithm while maintaining the full resolution of the query matrix. This design significantly reduces computational costs, resulting in lower complexity and enabling scalable global interactions without compromising reconstruction fidelity. SAT identifies and represents each cluster with a single aggregation token, utilizing density and isolation metrics to ensure that critical high-frequency details are preserved. Experimental results demonstrate that SAT outperforms the state-of-the-art method PFT by up to 0.22dB, while the total number of FLOPs can be reduced by up to 27\%.
- Abstract(参考訳): トランスフォーマーベースのアプローチは、長距離依存をモデル化することによって、画像超解像に革命をもたらした。
しかしながら、バニラ自己注意機構の二次的な計算複雑性は、しばしば効率とグローバルな文脈利用の間の妥協をもたらす重大な課題を引き起こす。
最近のウィンドウベースアテンション手法は、計算をローカライズすることでこれを緩和するが、しばしば制限された受容場が得られる。
これらの制限を緩和するため,Selective Aggregation Transformer (SAT)を提案する。
本発明のトランスフォーマーは,長範囲依存を効率的に捕捉し,クエリ行列の完全解像度を維持しながら,キー値行列を選択的に集約(トークン数を97 %削減)することにより,拡張モデル受容場を実現する。
この設計は、計算コストを大幅に削減し、複雑さを低減し、再構築の忠実さを損なうことなく、スケーラブルなグローバルな相互作用を可能にする。
SATは、個々のクラスタを単一のアグリゲーショントークンで識別し、表現し、密度とアイソレーションのメトリクスを利用して、重要な高周波の詳細が保存されていることを保証する。
実験の結果、SATは最先端のPFTを最大0.22dBで上回り、FLOPの総数は最大27倍に削減できることがわかった。
関連論文リスト
- From Local Windows to Adaptive Candidates via Individualized Exploratory: Rethinking Attention for Image Super-Resolution [20.444907448992154]
Single Image Super-Resolution (SISR)は、低解像度(LR)入力から高解像度(HR)画像を再構成することを目的とした、基本的なコンピュータビジョンタスクである。
フレキシブルかつトークン適応型アテンション計算を実現するために,IET(Personalized Exploratory Transformer)を提案する。
論文 参考訳(メタデータ) (2026-01-13T09:01:20Z) - Unlocking Symbol-Level Precoding Efficiency Through Tensor Equivariant Neural Network [84.22115118596741]
シンボルレベルのプリコーディングにおいて,推論の複雑さの低いエンドツーエンドディープラーニング(DL)フレームワークを提案する。
提案手法は,従来の手法よりも約80倍の高速化を実現しつつ,SLPの大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2025-10-02T15:15:50Z) - MOLA: Enhancing Industrial Process Monitoring Using Multi-Block Orthogonal Long Short-Term Memory Autoencoder [3.7028696448588487]
産業プロセスの高精度かつ信頼性の高い故障検出を行うために,MOLA: Multi-block Orthogonal Long short-term memory Autoencoder パラダイムを導入する。
本稿では,プロセス変数を専門的なプロセス知識を活用することで,複数のブロックに分類するマルチブロック監視構造を提案する。
テネシー・イーストマン・プロセスに適用することで,MOLAフレームワークの有効性と有効性を示す。
論文 参考訳(メタデータ) (2024-10-10T00:49:43Z) - Transforming Image Super-Resolution: A ConvFormer-based Efficient Approach [58.57026686186709]
本稿では, Convolutional Transformer Layer (ConvFormer) を導入し, ConvFormer-based Super-Resolution Network (CFSR) を提案する。
CFSRは畳み込みベースのアプローチとトランスフォーマーベースのアプローチの両方の利点を継承する。
CFSRは計算コストと性能のバランスが最適であることを示す実験である。
論文 参考訳(メタデータ) (2024-01-11T03:08:00Z) - Transformer-based Context Condensation for Boosting Feature Pyramids in
Object Detection [77.50110439560152]
現在の物体検出器は、通常マルチレベル特徴融合(MFF)のための特徴ピラミッド(FP)モジュールを持つ。
我々は,既存のFPがより優れたMFF結果を提供するのに役立つ,新しい,効率的なコンテキストモデリング機構を提案する。
特に,包括的文脈を2種類の表現に分解・凝縮して高効率化を図っている。
論文 参考訳(メタデータ) (2022-07-14T01:45:03Z) - Adaptive Multi-Resolution Attention with Linear Complexity [18.64163036371161]
本稿では,AdaMRA(Adaptive Multi-Resolution Attention)という新しい構造を提案する。
我々はマルチレゾリューション・マルチヘッド・アテンション・メカニズムを活用し、アテンションヘッドが粗い方法で長距離コンテキスト情報をキャプチャすることを可能にする。
科学コミュニティによるAdaMRAの利用を促進するため、コード実装を一般公開する予定である。
論文 参考訳(メタデータ) (2021-08-10T23:17:16Z) - Sparse PCA via $l_{2,p}$-Norm Regularization for Unsupervised Feature
Selection [138.97647716793333]
再構成誤差を$l_2,p$ノルム正規化と組み合わせることで,単純かつ効率的な特徴選択手法を提案する。
提案する非教師付きモデルを解くための効率的な最適化アルゴリズムを提案し,アルゴリズムの収束と計算の複雑さを理論的に解析する。
論文 参考訳(メタデータ) (2020-12-29T04:08:38Z) - Spatially Adaptive Inference with Stochastic Feature Sampling and
Interpolation [72.40827239394565]
スパースサンプリングされた場所のみの機能を計算することを提案する。
次に、効率的な手順で特徴写像を密に再構築する。
提案したネットワークは、様々なコンピュータビジョンタスクの精度を維持しながら、かなりの計算を省くために実験的に示されている。
論文 参考訳(メタデータ) (2020-03-19T15:36:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。