論文の概要: UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition
- arxiv url: http://arxiv.org/abs/2311.15599v2
- Date: Mon, 18 Mar 2024 08:37:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-20 02:52:49.343650
- Title: UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition
- Title(参考訳): UniRepLKNet: オーディオ、ビデオ、ポイントクラウド、時系列、画像認識のためのユニバーサルパーセプション大カーネル ConvNet
- Authors: Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu Yue, Ying Shan,
- Abstract要約: 大規模なカーネルベースの畳み込みニューラルネットワーク(ConvNets)を設計するための4つのアーキテクチャガイドラインを提案する。
提案する大規模カーネルベースのConvNetは,画像認識における主要な性能を示す。
大規模なカーネルが、もともと熟練していないドメインにおいて、ConvNetの例外的なパフォーマンスを解放する鍵であることを発見した。
- 参考スコア(独自算出の注目度): 61.01408259741114
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-kernel convolutional neural networks (ConvNets) have recently received extensive research attention, but two unresolved and critical issues demand further investigation. 1) The architectures of existing large-kernel ConvNets largely follow the design principles of conventional ConvNets or transformers, while the architectural design for large-kernel ConvNets remains under-addressed. 2) As transformers have dominated multiple modalities, it remains to be investigated whether ConvNets also have a strong universal perception ability in domains beyond vision. In this paper, we contribute from two aspects. 1) We propose four architectural guidelines for designing large-kernel ConvNets, the core of which is to exploit the essential characteristics of large kernels that distinguish them from small kernels - they can see wide without going deep. Following such guidelines, our proposed large-kernel ConvNet shows leading performance in image recognition (ImageNet accuracy of 88.0%, ADE20K mIoU of 55.6%, and COCO box AP of 56.4%), demonstrating better performance and higher speed than the recent powerful competitors. 2) We discover large kernels are the key to unlocking the exceptional performance of ConvNets in domains where they were originally not proficient. With certain modality-related preprocessing approaches, the proposed model achieves state-of-the-art performance on time-series forecasting and audio recognition tasks even without modality-specific customization to the architecture. All the code and models are publicly available on GitHub and Huggingface.
- Abstract(参考訳): 大規模カーネル畳み込みニューラルネットワーク(ConvNets)は、最近広範な研究の注目を集めているが、未解決で重要な2つの問題がさらなる調査を要求している。
1) 既存の大型カーネルのConvNetのアーキテクチャは、従来のConvNetやトランスフォーマーの設計原則に大きく従っているが、大型カーネルのConvNetのアーキテクチャ設計は未完成のままである。
2) 変換器が複数のモダリティを支配してきたため, ConvNets が視覚以外の領域で強い普遍的知覚能力を持つかどうかについても検討が続けられている。
本稿では2つの側面から貢献する。
1)大カーネルのConvNet設計のための4つのアーキテクチャガイドラインを提案し,その中核となるのは,それらを小さなカーネルと区別する,大きなカーネルの本質的特性を活用することだ。
このようなガイドラインに従って,提案する大カーネルのConvNetは画像認識における主要な性能を示す(画像ネット精度88.0%,ADE20K mIoU55.6%,COCOボックスAP56.4%)。
2) 大規模なカーネルが,本来熟練していないドメインにおいて,ConvNetの例外的なパフォーマンスを解放する鍵となることを発見した。
特定のモダリティ関連前処理アプローチを用いて,提案モデルは,アーキテクチャへのモダリティ固有のカスタマイズがなくても,時系列予測や音声認識タスクにおける最先端のパフォーマンスを実現する。
すべてのコードとモデルはGitHubとHuggingfaceで公開されている。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Designing Concise ConvNets with Columnar Stages [33.248031676529635]
我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。
評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文 参考訳(メタデータ) (2024-10-05T09:03:42Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。