論文の概要: Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms
- arxiv url: http://arxiv.org/abs/2508.01385v1
- Date: Sat, 02 Aug 2025 14:28:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.852334
- Title: Lightweight Backbone Networks Only Require Adaptive Lightweight Self-Attention Mechanisms
- Title(参考訳): 軽量バックボーンネットワークは適応型軽量自己注意機構のみを必要とする
- Authors: Fengyun Li, Chao Zheng, Yangyang Fang, Jialiang Lan, Jianhua Liang, Luhao Zhang, Fa Si,
- Abstract要約: 本稿では,適応的な特徴マップサイズを持つ軽量なSoftMaxアテンション計算機構を提案する。
LOLViTは推論速度とモデル精度の両方で同一レベルのCNNモデルより優れていた。
- 参考スコア(独自算出の注目度): 3.1008025152646996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Currently, lightweight hybrid backbone networks have partially alleviated the issue of computational saturation, but the imbalance in computational efficiencys between convolutional neural networks (CNNs) and attention mechanisms is becoming increasingly apparent. Specifically, although linear attention mechanisms and their variants have made progress in lightweight design, they still fail to meet the demands of hybrid models for long-sequence modeling. On the other hand, existing lightweight SoftMax attention computations typically reduce the feature map to a fixed size to decrease the number of sequences, thereby compressing the computational scale. However, the process of determining the feature map reduction ratio is cumbersome, and computational saturation issues still persist. To address this issue, this paper proposes a lightweight SoftMax attention mechanism with adaptive feature map sizes, named Fast Window Attention (FWA), which generates a small number of key sequences (Key and Value) through window aggregation for attention computation. Additionally, it explains the rationality of using ReLU to simulate SoftMax operations in lightweight global attention mechanisms. Finally, the paper designs a global-local feature fusion mechanism and combines it with GhostNet to propose a lightweight hybrid backbone network, LOLViT. Through visual tasks such as classification (ImageNet 1K), detection (COCO 2017), and segmentation (BDD100K), along with extensive ablation studies, it is demonstrated that LOLViT outperforms CNN models of the same level in both inference speed and model accuracy. Notably, the inference speed of LOLViT-X is 5x that of MobileViT-X.
- Abstract(参考訳): 現在、軽量なハイブリッドバックボーンネットワークは、計算飽和の問題を部分的に緩和しているが、畳み込みニューラルネットワーク(CNN)とアテンション機構の間の計算効率の不均衡がますます顕在化しつつある。
特に、線形アテンション機構とその変種は軽量設計を進歩させたが、長いシーケンスモデリングのためのハイブリッドモデルの要求を満たすには至らなかった。
一方、既存の軽量なSoftMaxアテンション計算は、通常、特徴写像を固定サイズに減らし、シーケンス数を減らし、計算スケールを圧縮する。
しかし、特徴写像の減少率を決定するプロセスは煩雑であり、計算飽和問題は今も続いている。
この問題に対処するために,FWA(Fast Window Attention)と呼ばれる,適応的な特徴マップサイズを持つ軽量なSoftMaxアテンション機構を提案する。
さらに、軽量なグローバルアテンション機構において、ReLUを用いてSoftMax操作をシミュレートする合理性についても説明している。
最後に,グローバルな特徴融合機構を設計し,GhostNetと組み合わせて軽量なハイブリッドバックボーンネットワーク LOLViT を提案する。
分類(ImageNet 1K)、検出(COCO 2017)、セグメンテーション(BDD100K)などの視覚的タスクを通じて、LOLViTが推論速度とモデル精度の両方で同じレベルのCNNモデルより優れていることを示す。
特に、LOLViT-Xの推論速度はMobileViT-Xの5倍である。
関連論文リスト
- LSNet: See Large, Focus Small [67.05569159984691]
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。
LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
論文 参考訳(メタデータ) (2025-03-29T16:00:54Z) - Anchor Attention, Small Cache: Code Generation with Large Language Models [15.94784908771546]
NLPの現在のプラクティスは、コード生成タスクにおいて、不正確な、あるいは幻覚を引き起こす可能性のある、スパースアテンションを使用することが多い。
本稿では,コンテキスト情報を抽出・圧縮するトークン・アンカー・アテンションを特徴とする新しいアプローチであるAnchorCoderを提案する。
モデルの性能の大部分を保ちながら、KVキャッシュの要求を大幅に削減できる(少なくとも70%)。
論文 参考訳(メタデータ) (2024-11-11T02:47:05Z) - Lean Attention: Hardware-Aware Scalable Attention Mechanism for the Decode-Phase of Transformers [4.674454841332859]
トランスフォーマーベースのモデルは、自然言語処理の最も広く使われているアーキテクチャの1つとして登場した。
これらの巨大なモデルはメモリが空腹で、最先端のAIアクセラレータでも大きな推論レイテンシが生じる。
本稿ではトークン生成フェーズの自己認識をスケーラブルに計算する手法であるLeanAttentionを提案する。
論文 参考訳(メタデータ) (2024-05-17T00:52:39Z) - Dynamic Graph Message Passing Networks for Visual Recognition [112.49513303433606]
長距離依存のモデリングは、コンピュータビジョンにおけるシーン理解タスクに不可欠である。
完全連結グラフはそのようなモデリングには有益であるが、計算オーバーヘッドは禁じられている。
本稿では,計算複雑性を大幅に低減する動的グラフメッセージパッシングネットワークを提案する。
論文 参考訳(メタデータ) (2022-09-20T14:41:37Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Learned Queries for Efficient Local Attention [11.123272845092611]
視覚変換器の自己保持機構は、高レイテンシと非効率なメモリ利用に悩まされる。
本稿では,クエリ・アンド・アテンション(QnA)と呼ばれる,新たなシフト不変なローカルアテンション層を提案する。
我々は、最先端モデルと同等の精度を達成しつつ、スピードとメモリの複雑さの改善を示す。
論文 参考訳(メタデータ) (2021-12-21T18:52:33Z) - Mitigating Performance Saturation in Neural Marked Point Processes:
Architectures and Loss Functions [50.674773358075015]
本稿では,グラフ畳み込み層のみを利用するGCHPという単純なグラフベースのネットワーク構造を提案する。
我々は,GCHPがトレーニング時間を大幅に短縮し,時間間確率仮定による確率比損失がモデル性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2021-07-07T16:59:14Z) - MicroNet: Towards Image Recognition with Extremely Low FLOPs [117.96848315180407]
MicroNetは計算コストの極めて低い効率的な畳み込みニューラルネットワークである。
MicroNetのファミリは、低いFLOP体制における最先端技術よりも大きなパフォーマンス向上を実現している。
例えば、MicroNet-M1は12のMFLOPを持つImageNet分類において61.1%のトップ-1の精度を達成し、MobileNetV3を11.3%上回っている。
論文 参考訳(メタデータ) (2020-11-24T18:59:39Z) - CNN Acceleration by Low-rank Approximation with Quantized Factors [9.654865591431593]
現代の畳み込みニューラルネットワークは複雑なコンピュータビジョンタスクの解決において大きな成果を上げているが、モバイルや組み込みデバイスでは効果的に利用できない。
この問題を解決するために、タッカー形式の低ランクテンソル近似と重みの量子化と特徴写像(アクティベーション)という2つの既知の手法を組み合わせた新しい手法を提案する。
CIFAR-10, CIFAR-100, Imagenet分類タスクにおけるResNet18とResNet34の効率を実証した。
論文 参考訳(メタデータ) (2020-06-16T02:28:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。