論文の概要: UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio,
Video, Point Cloud, Time-Series and Image Recognition
- arxiv url: http://arxiv.org/abs/2311.15599v1
- Date: Mon, 27 Nov 2023 07:48:50 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 16:38:52.398891
- Title: UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio,
Video, Point Cloud, Time-Series and Image Recognition
- Title(参考訳): UniRepLKNet: オーディオ、ビデオ、ポイントクラウド、時系列、画像認識のためのユニバーサル知覚大カーネル ConvNet
- Authors: Xiaohan Ding, Yiyuan Zhang, Yixiao Ge, Sijie Zhao, Lin Song, Xiangyu
Yue, Ying Shan
- Abstract要約: 画像認識のための大規模カーネルベース畳み込みニューラルネットワーク(ConvNet)を提案する。
我々のモデルはイメージネットの精度88.0%、ADE20K mIoU55.6%、COCOボックスAP56.4%を達成し、最近提案された多くの強力な競合相手よりも優れた性能と高速性を示している。
- 参考スコア(独自算出の注目度): 64.07367773878386
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-kernel convolutional neural networks (ConvNets) have recently received
extensive research attention, but there are two unresolved and critical issues
that demand further investigation. 1) The architectures of existing
large-kernel ConvNets largely follow the design principles of conventional
ConvNets or transformers, while the architectural design for large-kernel
ConvNets remains under-addressed. 2) As transformers have dominated multiple
modalities, it remains to be investigated whether ConvNets also have a strong
universal perception ability in domains beyond vision. In this paper, we
contribute from two aspects. 1) We propose four architectural guidelines for
designing large-kernel ConvNets, the core of which is to exploit the essential
characteristics of large kernels that distinguish them from small kernels -
they can see wide without going deep. Following such guidelines, our proposed
large-kernel ConvNet shows leading performance in image recognition. For
example, our models achieve an ImageNet accuracy of 88.0%, ADE20K mIoU of
55.6%, and COCO box AP of 56.4%, demonstrating better performance and higher
speed than a number of recently proposed powerful competitors. 2) We discover
that large kernels are the key to unlocking the exceptional performance of
ConvNets in domains where they were originally not proficient. With certain
modality-related preprocessing approaches, the proposed model achieves
state-of-the-art performance on time-series forecasting and audio recognition
tasks even without modality-specific customization to the architecture. Code
and all the models at https://github.com/AILab-CVC/UniRepLKNet.
- Abstract(参考訳): 大規模カーネル畳み込みニューラルネットワーク(ConvNets)は近年、広範な研究の注目を集めているが、さらなる調査を求める未解決かつ重要な問題が2つある。
1) 既存の大型カーネルのConvNetのアーキテクチャは、従来のConvNetやトランスフォーマーの設計原則に大きく従っているが、大型カーネルのConvNetのアーキテクチャ設計は未完成のままである。
2) 変換器が複数のモダリティを支配してきたため, ConvNets が視覚以外の領域で強い普遍認識能力を持つかどうかについても検討が続けられている。
本稿では,二つの側面から貢献する。
1)大カーネルを設計するための4つのアーキテクチャガイドラインを提案し,その中核となるのは,小カーネルと区別できる大カーネルの本質的特徴を活用することである。
このようなガイドラインに従って,提案する大カーネル ConvNet は画像認識における主要な性能を示す。
例えば、私たちのモデルは、イメージネットの精度88.0%、ADE20K mIoU55.6%、COCOボックスAP56.4%を達成し、最近提案された多くの強力な競合相手よりも優れたパフォーマンスと高速性を示している。
2) 大規模なカーネルは,もともと熟練していないドメインにおいて,ConvNetの例外的なパフォーマンスを解放する鍵となる。
特定のモダリティ関連前処理アプローチを用いて,提案モデルは,アーキテクチャへのモダリティ固有のカスタマイズがなくても,時系列予測や音声認識タスクにおける最先端のパフォーマンスを実現する。
コードとすべてのモデルはhttps://github.com/AILab-CVC/UniRepLKNetにある。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Designing Concise ConvNets with Columnar Stages [33.248031676529635]
我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。
評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文 参考訳(メタデータ) (2024-10-05T09:03:42Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - InceptionNeXt: When Inception Meets ConvNeXt [167.61042926444105]
IncepitonNeXtと呼ばれる一連のネットワークを構築し、高いスループットを享受するだけでなく、競争性能も維持しています。
InceptionNeXtはConvNeX-Tよりも1.6倍高いトレーニングスループットを実現し、ImageNet-1Kでは0.2%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-03-29T17:59:58Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - MogaNet: Multi-order Gated Aggregation Network [64.16774341908365]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - Fast-ParC: Capturing Position Aware Global Feature for ConvNets and ViTs [35.39701561076837]
本稿では,位置認識型円形畳み込み(ParC)と呼ばれるニューラルネットワーク演算子と,その高速化バージョンであるFast-ParCを提案する。
我々のFast-ParCは、Fast Fourier Transformを使用してParCのO(n2)時間をO(n log n)に短縮する。
実験の結果,ParC opは従来のConvNetの受容領域を効果的に拡大できることがわかった。
論文 参考訳(メタデータ) (2022-10-08T13:14:02Z) - Scaling Up Your Kernels to 31x31: Revisiting Large Kernel Design in CNNs [148.0476219278875]
現代畳み込みニューラルネットワーク(CNN)における大規模カーネル設計の再検討
本稿では、視覚変換器(ViT)の最近の進歩に触発されて、小さなカーネルのスタックではなく、少数の大きな畳み込みカーネルを使うことが、より強力なパラダイムであることを実証する。
本稿では,カーネルサイズが31x31の純粋なCNNアーキテクチャであるRepLKNetを提案する。
論文 参考訳(メタデータ) (2022-03-13T17:22:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。