論文の概要: ReGLA: Efficient Receptive-Field Modeling with Gated Linear Attention Network
- arxiv url: http://arxiv.org/abs/2602.05262v1
- Date: Thu, 05 Feb 2026 03:43:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.745965
- Title: ReGLA: Efficient Receptive-Field Modeling with Gated Linear Attention Network
- Title(参考訳): ReGLA: Gated Linear Attention Network を用いた効率的な受容場モデリング
- Authors: Junzhou Li, Manqi Zhao, Yilin Gao, Zhiheng Yu, Yin Li, Dongsheng Jiang, Li Xiao,
- Abstract要約: textbfReGLAは、局所特徴抽出のための効率的な畳み込みと、大域的モデリングのためのReLUベースのゲート線形アテンションを統合している。
ReGLAは、ダウンストリームタスクで同様にスケールしたiFormerモデルより優れており、オブジェクト検出では textbf3.1% AP、ADE20Kセマンティックセグメンテーションでは textbf3.6% mIoU を達成している。
- 参考スコア(独自算出の注目度): 14.912003445763688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Balancing accuracy and latency on high-resolution images is a critical challenge for lightweight models, particularly for Transformer-based architectures that often suffer from excessive latency. To address this issue, we introduce \textbf{ReGLA}, a series of lightweight hybrid networks, which integrates efficient convolutions for local feature extraction with ReLU-based gated linear attention for global modeling. The design incorporates three key innovations: the Efficient Large Receptive Field (ELRF) module for enhancing convolutional efficiency while preserving a large receptive field; the ReLU Gated Modulated Attention (RGMA) module for maintaining linear complexity while enhancing local feature representation; and a multi-teacher distillation strategy to boost performance on downstream tasks. Extensive experiments validate the superiority of ReGLA; particularly the ReGLA-M achieves \textbf{80.85\%} Top-1 accuracy on ImageNet-1K at $224px$, with only \textbf{4.98 ms} latency at $512px$. Furthermore, ReGLA outperforms similarly scaled iFormer models in downstream tasks, achieving gains of \textbf{3.1\%} AP on COCO object detection and \textbf{3.6\%} mIoU on ADE20K semantic segmentation, establishing it as a state-of-the-art solution for high-resolution visual applications.
- Abstract(参考訳): 高解像度画像の精度とレイテンシのバランスをとることは、特に過度のレイテンシに悩むTransformerベースのアーキテクチャにおいて、軽量モデルにとって重要な課題である。
この問題に対処するために,局所特徴抽出のための効率的な畳み込みと,大域的モデリングのためのReLUに基づくゲート線形注意を統合する,一連の軽量ハイブリッドネットワークである \textbf{ReGLA} を導入する。
この設計には、3つの重要な革新が含まれている: 大きな受容場を維持しながら畳み込み効率を向上する効率的な大受容場(ELRF)モジュール、局所的な特徴表現を高めながら線形複雑性を維持するためのReLU Gated Modulated Attention(RGMA)モジュール、下流タスクのパフォーマンスを高めるマルチティーチンガー蒸留戦略である。
特にReGLA-Mは、ImageNet-1K上の224px$のTop-1精度を達成し、レイテンシは512px$のtextbf{4.98ms}のみである。
さらに、ReGLAは下流タスクにおけるiFormerモデルのスケールも優れており、COCOオブジェクト検出における \textbf{3.1\%} AP とADE20Kセマンティックセグメンテーションにおける \textbf{3.6\%} mIoU の利得が得られ、高解像度視覚アプリケーションのための最先端のソリューションとして確立されている。
関連論文リスト
- A Lightweight Convolution and Vision Transformer integrated model with Multi-scale Self-attention Mechanism [41.02402160100821]
Vision Transformer (ViT) は、長距離依存モデリング能力の強いコンピュータビジョンタスクで普及している。
本稿では,細かな注意(SAEViTと呼ばれる)と畳み込みブロックを持つ効率的なViTモデルを提案する。
主流データセットの実験では、SAEViTはImageNet-1K分類タスクで76.3%と79.6%のTop-1アキュラシーを達成した。
論文 参考訳(メタデータ) (2025-08-23T03:05:34Z) - Residual Prior-driven Frequency-aware Network for Image Fusion [6.90874640835234]
画像融合は、高品質な融合画像を生成するために、モダリティにまたがる相補的な情報を統合することを目的としている。
本稿ではRPFNetと呼ばれる残差優先周波数対応ネットワークを提案する。
論文 参考訳(メタデータ) (2025-07-09T10:48:00Z) - LGM-Pose: A Lightweight Global Modeling Network for Real-time Human Pose Estimation [14.20517652381698]
これらの課題に対処するために,シングルブランチ軽量グローバルモデリングネットワーク (LGM-Pose) が提案されている。
このネットワークでは、軽量なMobileViMブロックが、LARM(Lightweight Attentional Representation Module)として提案されている。
論文 参考訳(メタデータ) (2025-06-05T02:29:04Z) - Breaking Complexity Barriers: High-Resolution Image Restoration with Rank Enhanced Linear Attention [54.42902794496325]
ソフトマックスアテンションの変種である線形アテンションは、グローバルコンテキストモデリングにおける約束を示す。
軽量な奥行き畳み込みを統合することで特徴表現を充実させる簡易かつ効果的な方法であるRランク拡張線形アテンション(RELA)を提案する。
本稿では,RELA をベースとした画像復元変換器 LAformer を提案する。
論文 参考訳(メタデータ) (2025-05-22T02:57:23Z) - VRS-UIE: Value-Driven Reordering Scanning for Underwater Image Enhancement [104.78586859995333]
状態空間モデル(SSM)は、線形複雑性と大域的受容場のために、視覚タスクの有望なバックボーンとして登場した。
大型で均質だが無意味な海洋背景の優位性は、希少で価値ある標的の特徴表現応答を希薄にすることができる。
水中画像強調(UIE)のための新しい値駆動リダクションスキャンフレームワークを提案する。
本フレームワークは, 水バイアスを効果的に抑制し, 構造や色彩の忠実さを保ち, 優れた向上性能(WMambaを平均0.89dB超える)を実現する。
論文 参考訳(メタデータ) (2025-05-02T12:21:44Z) - Any Image Restoration via Efficient Spatial-Frequency Degradation Adaptation [158.37640586809187]
劣化した画像を1つのモデルで効率的に復元することは、ますます重要になっている。
我々のアプローチはAnyIRと呼ばれ、様々な劣化にまたがる固有の類似性を活用する統一された経路をとっています。
劣化認識と文脈的注意を融合させるため,空間周波数並列融合戦略を提案する。
論文 参考訳(メタデータ) (2025-04-19T09:54:46Z) - Low-Resolution Self-Attention for Semantic Segmentation [93.30597515880079]
我々は,グローバルコンテキストを計算コストの大幅な削減で捉えるために,低解像度自己認識(LRSA)機構を導入する。
我々のアプローチは、入力画像の解像度に関わらず、固定された低解像度空間における自己注意を計算することである。
本稿では,エンコーダ・デコーダ構造を持つビジョントランスであるLRFormerを構築することで,LRSA手法の有効性を示す。
論文 参考訳(メタデータ) (2023-10-08T06:10:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。