論文の概要: UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale
- arxiv url: http://arxiv.org/abs/2508.09000v1
- Date: Tue, 12 Aug 2025 15:11:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 21:07:34.472785
- Title: UniConvNet: Expanding Effective Receptive Field while Maintaining Asymptotically Gaussian Distribution for ConvNets of Any Scale
- Title(参考訳): UniConvNet: 任意のスケールのConvNetに対する漸近的ガウス分布を維持しながら、効果的な受容場を拡張する
- Authors: Yuhao Wang, Wei Xi,
- Abstract要約: 我々はUniConvNetと呼ばれる任意のスケールのConvNetの普遍モデルを提案する。
ImageNet-1K、COCO 2017、ADE20Kの実験では、UniConvNetは最先端のCNNやViTよりも優れています。
UniConvNet-Tは、$74.2%のImageNet top-1精度で、パラメータは$30M、FLOPは$5.1Gである。
- 参考スコア(独自算出の注目度): 6.1062169762251255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks (ConvNets) with large effective receptive field (ERF), still in their early stages, have demonstrated promising effectiveness while constrained by high parameters and FLOPs costs and disrupted asymptotically Gaussian distribution (AGD) of ERF. This paper proposes an alternative paradigm: rather than merely employing extremely large ERF, it is more effective and efficient to expand the ERF while maintaining AGD of ERF by proper combination of smaller kernels, such as $7\times{7}$, $9\times{9}$, $11\times{11}$. This paper introduces a Three-layer Receptive Field Aggregator and designs a Layer Operator as the fundamental operator from the perspective of receptive field. The ERF can be expanded to the level of existing large-kernel ConvNets through the stack of proposed modules while maintaining AGD of ERF. Using these designs, we propose a universal model for ConvNet of any scale, termed UniConvNet. Extensive experiments on ImageNet-1K, COCO2017, and ADE20K demonstrate that UniConvNet outperforms state-of-the-art CNNs and ViTs across various vision recognition tasks for both lightweight and large-scale models with comparable throughput. Surprisingly, UniConvNet-T achieves $84.2\%$ ImageNet top-1 accuracy with $30M$ parameters and $5.1G$ FLOPs. UniConvNet-XL also shows competitive scalability to big data and large models, acquiring $88.4\%$ top-1 accuracy on ImageNet. Code and models are publicly available at https://github.com/ai-paperwithcode/UniConvNet.
- Abstract(参考訳): 畳み込みニューラルネットワーク(ConvNets)は、まだ初期段階にある大きな有効受容野(ERF)を持ち、高いパラメータとFLOPのコストに制約され、ERFの漸近的ガウス分布(AGD)が破壊される一方で、有望な効果を示している。
本稿では,超大型のERFを採用するのではなく,より小型のカーネルを適切に組み合わせることで,ERFのAGDを維持しつつ,ERFの拡張を効果的かつ効果的に行うことを提案する。
本稿では,3層受動的場アグリゲータを導入し,受動的場の観点から基本演算子としてレイヤ演算子を設計する。
ERFは、ERFのAGDを維持しながら、提案されたモジュールのスタックを通じて既存の大型カーネルConvNetのレベルまで拡張することができる。
これらの設計を用いて,UniConvNetと呼ばれる任意のスケールのConvNetの普遍モデルを提案する。
ImageNet-1K、COCO2017、ADE20Kの大規模な実験により、UniConvNetは、同等のスループットを持つ軽量モデルと大規模モデルの両方において、さまざまな視覚認識タスクにおいて、最先端のCNNとViTよりも優れたパフォーマンスを示している。
驚いたことに、UniConvNet-Tは$84.2\%のImageNet top-1の精度を達成し、パラメータは$30M、FLOPは$5.1Gである。
UniConvNet-XLは、ビッグデータや大規模モデルと競合するスケーラビリティを示し、ImageNetで8.4 %$ top-1 の精度を獲得した。
コードとモデルはhttps://github.com/ai-paperwithcode/UniConvNetで公開されている。
関連論文リスト
- Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。
複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。
我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-10-10T15:43:55Z) - Demystifying the Effect of Receptive Field Size in U-Net Models for Medical Image Segmentation [0.0]
この研究は、受信フィールド(RF)サイズとそのU-NetおよびAttention U-Netアーキテクチャへの影響について検討する。
その結果、より広いグローバルなコンテキストを捉えることと計算効率を維持することのバランスを保ちながら、最適なTRFサイズが存在することが示された。
また、U-Net(および注意U-Net)モデルのTRFを計算するツールも開発され、与えられたモデルとデータセットに対して適切なTRFサイズを提案する。
論文 参考訳(メタデータ) (2024-06-24T15:04:14Z) - Fully $1\times1$ Convolutional Network for Lightweight Image
Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。
$1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。
我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文 参考訳(メタデータ) (2023-07-30T06:24:03Z) - GMConv: Modulating Effective Receptive Fields for Convolutional Kernels [52.50351140755224]
畳み込みニューラルネットワークでは、固定N$times$N受容場(RF)を持つ正方形カーネルを用いて畳み込みを行う。
ERFが通常ガウス分布を示す性質に着想を得て,本研究でガウス・マスク畳み込みカーネル(GMConv)を提案する。
私たちのGMConvは、既存のCNNの標準の畳み込みを直接置き換えることができ、標準のバックプロパゲーションによって、エンドツーエンドで簡単に訓練することができます。
論文 参考訳(メタデータ) (2023-02-09T10:17:17Z) - MogaNet: Multi-order Gated Aggregation Network [61.842116053929736]
我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。
MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。
MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
論文 参考訳(メタデータ) (2022-11-07T04:31:17Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。