論文の概要: Efficient Multi-order Gated Aggregation Network
- arxiv url: http://arxiv.org/abs/2211.03295v1
- Date: Mon, 7 Nov 2022 04:31:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 15:33:27.045314
- Title: Efficient Multi-order Gated Aggregation Network
- Title(参考訳): 効率的なマルチオーダーゲートアグリゲーションネットワーク
- Authors: Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu,
Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
- Abstract要約: 相互作用の複雑さは見過ごされているが、視覚認識にとって不可欠な指標であることを示す。
情報的コンテキストマイニングを追求するために、MogaNetという名前の効率的なConvNetの新しいファミリーが提示されている。
- 参考スコア(独自算出の注目度): 47.677872597485106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the recent success of Vision Transformers (ViTs), explorations toward
transformer-style architectures have triggered the resurgence of modern
ConvNets. In this work, we explore the representation ability of DNNs through
the lens of interaction complexities. We empirically show that interaction
complexity is an overlooked but essential indicator for visual recognition.
Accordingly, a new family of efficient ConvNets, named MogaNet, is presented to
pursue informative context mining in pure ConvNet-based models, with preferable
complexity-performance trade-offs. In MogaNet, interactions across multiple
complexities are facilitated and contextualized by leveraging two specially
designed aggregation blocks in both spatial and channel interaction spaces.
Extensive studies are conducted on ImageNet classification, COCO object
detection, and ADE20K semantic segmentation tasks. The results demonstrate that
our MogaNet establishes new state-of-the-art over other popular methods in
mainstream scenarios and all model scales. Typically, the lightweight MogaNet-T
achieves 80.0\% top-1 accuracy with only 1.44G FLOPs using a refined training
setup on ImageNet-1K, surpassing ParC-Net-S by 1.4\% accuracy but saving 59\%
(2.04G) FLOPs.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)が最近成功して以来、トランスフォーマースタイルのアーキテクチャへの探索は、現代のConvNetの復活を引き起こしている。
本研究では,相互作用複雑性のレンズによるDNNの表現能力について検討する。
対話の複雑さは視覚認識において見過ごされているが必須の指標であることを示す。
そのため、純粋なConvNetベースのモデルで情報的コンテキストマイニングを追求するために、MogaNetと呼ばれる効率的なConvNetの新しいファミリーが提示される。
MogaNetでは、空間的およびチャネル的相互作用空間において、2つの特別に設計された集約ブロックを活用することにより、複数の複雑度間の相互作用を容易にし、コンテキスト化することができる。
ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションタスクについて、広範囲にわたる研究を行った。
その結果、MogaNetは主流のシナリオやすべてのモデルスケールにおいて、他の一般的なメソッドよりも新しい最先端技術を確立しています。
通常、軽量のMogaNet-Tは、ImageNet-1Kの洗練されたトレーニング設定を使用して、わずか1.44GのFLOPで80.0\%のトップ-1の精度を達成し、ParC-Net-Sを1.4\%上回ったが、59\% (2.04G)のFLOPを節約した。
関連論文リスト
- Designing Concise ConvNets with Columnar Stages [33.248031676529635]
我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。
CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。
評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文 参考訳(メタデータ) (2024-10-05T09:03:42Z) - DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。
本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。
私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文 参考訳(メタデータ) (2024-06-06T02:51:57Z) - UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition [61.01408259741114]
大規模なカーネルベースの畳み込みニューラルネットワーク(ConvNets)を設計するための4つのアーキテクチャガイドラインを提案する。
提案する大規模カーネルベースのConvNetは,画像認識における主要な性能を示す。
大規模なカーネルが、もともと熟練していないドメインにおいて、ConvNetの例外的なパフォーマンスを解放する鍵であることを発見した。
論文 参考訳(メタデータ) (2023-11-27T07:48:50Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - PSO-Convolutional Neural Networks with Heterogeneous Learning Rate [4.243356707599486]
畳み込みニューラルネットワーク(ConvNetsまたはCNNs)は、コンピュータビジョンと関連する分野の領域に率直に展開されている。
本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。
このような枠組みでは、各ConvNetの重みのベクトルは位相空間の粒子として介在し、PSOはトレーニング性能と一般化を促進するためにグラディエント・ディクセント(SGD)と動的に作用する。
論文 参考訳(メタデータ) (2022-05-20T22:47:19Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - DRU-net: An Efficient Deep Convolutional Neural Network for Medical
Image Segmentation [2.3574651879602215]
残留ネットワーク(ResNet)と密結合ネットワーク(DenseNet)は、ディープ畳み込みニューラルネットワーク(DCNN)のトレーニング効率と性能を大幅に改善した。
両ネットワークの利点を考慮した効率的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-28T12:16:24Z) - DyNet: Dynamic Convolution for Accelerating Convolutional Neural
Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。
MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文 参考訳(メタデータ) (2020-04-22T16:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。