論文の概要: LSNet: See Large, Focus Small
- arxiv url: http://arxiv.org/abs/2503.23135v1
- Date: Sat, 29 Mar 2025 16:00:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:35:58.740887
- Title: LSNet: See Large, Focus Small
- Title(参考訳): LSNet: 規模が大きく、焦点が小さい
- Authors: Ao Wang, Hui Chen, Zijia Lin, Jungong Han, Guiguang Ding,
- Abstract要約: 我々は,大カーネル認識と小カーネル集約を組み合わせたLS(textbfLarge-textbfSmall)畳み込みを導入する。
LSNetは、様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を実現する。
- 参考スコア(独自算出の注目度): 67.05569159984691
- License:
- Abstract: Vision network designs, including Convolutional Neural Networks and Vision Transformers, have significantly advanced the field of computer vision. Yet, their complex computations pose challenges for practical deployments, particularly in real-time applications. To tackle this issue, researchers have explored various lightweight and efficient network designs. However, existing lightweight models predominantly leverage self-attention mechanisms and convolutions for token mixing. This dependence brings limitations in effectiveness and efficiency in the perception and aggregation processes of lightweight networks, hindering the balance between performance and efficiency under limited computational budgets. In this paper, we draw inspiration from the dynamic heteroscale vision ability inherent in the efficient human vision system and propose a ``See Large, Focus Small'' strategy for lightweight vision network design. We introduce LS (\textbf{L}arge-\textbf{S}mall) convolution, which combines large-kernel perception and small-kernel aggregation. It can efficiently capture a wide range of perceptual information and achieve precise feature aggregation for dynamic and complex visual representations, thus enabling proficient processing of visual information. Based on LS convolution, we present LSNet, a new family of lightweight models. Extensive experiments demonstrate that LSNet achieves superior performance and efficiency over existing lightweight networks in various vision tasks. Codes and models are available at https://github.com/jameslahm/lsnet.
- Abstract(参考訳): Convolutional Neural NetworksやVision Transformersといったビジョンネットワークの設計は、コンピュータビジョンの分野を大きく進歩させた。
しかし、それらの複雑な計算は、特にリアルタイムアプリケーションにおいて、実践的なデプロイメントに課題をもたらす。
この問題に対処するために、研究者は様々な軽量で効率的なネットワーク設計を探索してきた。
しかし、既存の軽量モデルは、トークンミキシングのための自己保持機構と畳み込みを主に利用している。
この依存は、軽量ネットワークの知覚と集約プロセスにおける効率と効率の限界をもたらし、限られた計算予算下での性能と効率のバランスを妨げている。
本稿では、効率的な視覚システムに固有の動的ヘテロスケール視覚能力からインスピレーションを得て、軽量な視覚ネットワーク設計のための「大規模で焦点の小さい」戦略を提案する。
我々は,大カーネル認識と小カーネル集約を組み合わせたLS(\textbf{L}arge-\textbf{S}mall)畳み込みを導入する。
広い範囲の知覚情報を効果的に捉え、ダイナミックで複雑な視覚表現のための正確な特徴集約を実現し、視覚情報の熟練した処理を可能にする。
LS畳み込みに基づく新しい軽量モデルであるLSNetを提案する。
広範囲な実験により、LSNetは様々な視覚タスクにおいて、既存の軽量ネットワークよりも優れた性能と効率を達成することが示された。
コードとモデルはhttps://github.com/jameslahm/lsnet.comで公開されている。
関連論文リスト
- LWGANet: A Lightweight Group Attention Backbone for Remote Sensing Visual Tasks [20.924609707499915]
この記事では、RS視覚タスクに適した専用の軽量バックボーンネットワークであるLWGANetを紹介する。
RS画像用に調整されたLWGAモジュールは、冗長な特徴を利用して幅広い空間情報を抽出する。
その結果、LWGANetの広範な適用性と、高性能と低複雑性の最適なバランスを維持する能力が確認された。
論文 参考訳(メタデータ) (2025-01-17T08:56:17Z) - Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - big.LITTLE Vision Transformer for Efficient Visual Recognition [34.015778625984055]
big.LITTLE Vision Transformerは、効率的な視覚認識を実現するための革新的なアーキテクチャである。
システムは、大きなパフォーマンスブロックとLITTLE効率ブロックの2つの異なるブロックで構成されている。
画像処理では,各トークンの重要度を判定し,それに応じて割り当てる。
論文 参考訳(メタデータ) (2024-10-14T08:21:00Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - NiNformer: A Network in Network Transformer with Token Mixing as a Gating Function Generator [1.3812010983144802]
このアテンション機構はコンピュータビジョンでビジョントランスフォーマー ViT として使用された。
コストがかかり、効率的な最適化のためにかなりのサイズのデータセットを必要とするという欠点がある。
本稿では,新しい計算ブロックを標準ViTブロックの代替として導入し,計算負荷を削減する。
論文 参考訳(メタデータ) (2024-03-04T19:08:20Z) - Interpreting and Improving Attention From the Perspective of Large Kernel Convolution [51.06461246235176]
本稿では,LKCA(Large Kernel Convolutional Attention)について紹介する。
LKCAは、特にデータ制約のある設定において、様々な視覚的タスク間での競合性能を達成する。
論文 参考訳(メタデータ) (2024-01-11T08:40:35Z) - Dynamic Spatial Sparsification for Efficient Vision Transformers and
Convolutional Neural Networks [88.77951448313486]
視覚データにおける空間空間空間性を利用したモデルアクセラレーションのための新しい手法を提案する。
本稿では,冗長トークンを具現化する動的トークンスペーシフィケーションフレームワークを提案する。
提案手法は,CNNや階層型視覚変換器などの階層モデルに拡張する。
論文 参考訳(メタデータ) (2022-07-04T17:00:51Z) - Lightweight Image Super-Resolution with Multi-scale Feature Interaction
Network [15.846394239848959]
軽量マルチスケール機能インタラクションネットワーク(MSFIN)を提案する。
軽量SISRでは、MSFINは受容野を拡張し、低解像度の観測画像の情報的特徴を適切に活用する。
提案したMSFINは,より軽量なモデルで最先端技術に匹敵する性能を達成できる。
論文 参考訳(メタデータ) (2021-03-24T07:25:21Z) - AttendNets: Tiny Deep Image Recognition Neural Networks for the Edge via
Visual Attention Condensers [81.17461895644003]
我々は、オンデバイス画像認識に適した、低精度でコンパクトなディープニューラルネットワークであるAttendNetsを紹介する。
AttendNetsは、視覚的注意の凝縮に基づく深い自己注意アーキテクチャを持っている。
その結果、AttendNetsは、いくつかのディープニューラルネットワークと比較して、アーキテクチャと計算の複雑さが著しく低いことが示された。
論文 参考訳(メタデータ) (2020-09-30T01:53:17Z) - DBQ: A Differentiable Branch Quantizer for Lightweight Deep Neural
Networks [4.358626952482686]
本稿では, 効率的な3成分系ドット製品エンジンにシームレスにマッピングできる新しい非一様量子化器を提案する。
提案する量子化器 (DBQ) は,MobileNetV1, MobileNetV2, ShuffleNetV2 などの軽量ネットワークを積極的に定量化するという,突進的な課題に対処する。
DBQは、トレーニングオーバーヘッドを最小限に抑えながら、最先端の成果を達成し、最適な(最適に最適化された)精度/複雑さのトレードオフを提供する。
論文 参考訳(メタデータ) (2020-07-19T23:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。