Fugu-MT 論文翻訳(概要): MogaNet: Multi-order Gated Aggregation Network

論文の概要: MogaNet: Multi-order Gated Aggregation Network

arxiv url: http://arxiv.org/abs/2211.03295v3
Date: Fri, 16 Feb 2024 14:17:23 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 21:34:57.576434
Title: MogaNet: Multi-order Gated Aggregation Network
Title（参考訳）: MogaNet:マルチオーダーGated Aggregation Network
Authors: Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu, Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
Abstract要約: 我々は,識別的視覚的表現学習のために,MogaNetと呼ばれる現代ConvNetの新たなファミリーを提案する。 MogaNetは概念的に単純だが効果的な畳み込みをカプセル化し、集約をコンパクトモジュールに集約する。 MogaNetは、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの大幅な効率、競争性能を示している。
参考スコア（独自算出の注目度）: 64.16774341908365
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: By contextualizing the kernel as global as possible, Modern ConvNets have shown great potential in computer vision tasks. However, recent progress on \textit{multi-order game-theoretic interaction} within deep neural networks (DNNs) reveals the representation bottleneck of modern ConvNets, where the expressive interactions have not been effectively encoded with the increased kernel size. To tackle this challenge, we propose a new family of modern ConvNets, dubbed MogaNet, for discriminative visual representation learning in pure ConvNet-based models with favorable complexity-performance trade-offs. MogaNet encapsulates conceptually simple yet effective convolutions and gated aggregation into a compact module, where discriminative features are efficiently gathered and contextualized adaptively. MogaNet exhibits great scalability, impressive efficiency of parameters, and competitive performance compared to state-of-the-art ViTs and ConvNets on ImageNet and various downstream vision benchmarks, including COCO object detection, ADE20K semantic segmentation, 2D\&3D human pose estimation, and video prediction. Notably, MogaNet hits 80.0\% and 87.8\% accuracy with 5.2M and 181M parameters on ImageNet-1K, outperforming ParC-Net and ConvNeXt-L, while saving 59\% FLOPs and 17M parameters, respectively. The source code is available at \url{https://github.com/Westlake-AI/MogaNet}.
Abstract（参考訳）: カーネルを可能な限りグローバルにすることで、Modern ConvNetsはコンピュータビジョンタスクに大きな可能性を示した。しかし、ディープニューラルネットワーク(DNN)における \textit{multi-order game-theoretic interaction} の最近の進歩は、表現的相互作用がカーネルサイズの増加とともに効果的にエンコードされていない現代のConvNetの表現ボトルネックを明らかにしている。この課題に対処するために、我々は、複雑性と性能のトレードオフが好ましい純ConvNetモデルにおける識別的視覚表現学習のための、MogaNetと呼ばれるモダンなConvNetの新しいファミリーを提案する。 MogaNetは概念的に単純だが効果的な畳み込みとゲートアグリゲーションをコンパクトモジュールにカプセル化し、識別的特徴を効率的に収集し、文脈適応化する。 MogaNetは、CoCOオブジェクトの検出、ADE20Kセマンティックセグメンテーション、2D\&3D人間のポーズ推定、ビデオ予測など、ImageNetの最先端のViTやConvNetと比較して、優れたスケーラビリティ、パラメータの効率、競合性能を示している。特に、MogaNetは、ImageNet-1Kの5.2Mと181Mのパラメータで80.0\%と87.8\%の精度を達成し、ParC-NetとConvNeXt-Lを上回っ、それぞれ59\%のFLOPと17Mのパラメータを節約した。ソースコードは \url{https://github.com/westlake-ai/moganet} で入手できる。

関連論文リスト

Scaling Up Your Kernels: Large Kernel Design in ConvNets towards Universal Representations [17.41381592056492]
本稿では,現代畳み込みニューラルネットワーク(ConvNets)の設計における大規模畳み込みカーネルのパラダイムを提案する。複数の小さなカーネルを積み重ねる代わりに、少数の大規模なカーネルを採用することが、優れた設計戦略であることを示す。我々は,大規模なカーネル・コンバネット向けに構築されたアーキテクチャ設計の体系的原則を提供するUniRepLKNetアーキテクチャを提案する。
論文参考訳（メタデータ） (2024-10-10T15:43:55Z)
Designing Concise ConvNets with Columnar Stages [33.248031676529635]
我々はCoSNet(Columnar Stage Network)と呼ばれるリフレッシュなConvNetマクロ設計を導入する。 CoSNetは、体系的に開発されたシンプルで簡潔な構造、より小さな深さ、低いパラメータ数、低いFLOP、注意のない操作を持つ。評価の結果、CoSNetはリソース制約のあるシナリオ下で多くの有名なConvNetやTransformerの設計に匹敵していることがわかった。
論文参考訳（メタデータ） (2024-10-05T09:03:42Z)
DSNet: A Novel Way to Use Atrous Convolutions in Semantic Segmentation [8.240211805240023]
我々は、現代の畳み込みニューラルネットワーク(CNN)におけるアトラス畳み込みの設計を再考する。本稿では,モデルアーキテクチャの浅い層にアトラス畳み込みを組み込んだDual-Branch CNNアーキテクチャDSNetを提案する。私たちのモデルは、ADE20K、Cityscapes、BDDデータセットの正確性とスピードの新たな最先端のトレードオフを実現しています。
論文参考訳（メタデータ） (2024-06-06T02:51:57Z)
UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio, Video, Point Cloud, Time-Series and Image Recognition [61.01408259741114]
大規模なカーネルベースの畳み込みニューラルネットワーク(ConvNets)を設計するための4つのアーキテクチャガイドラインを提案する。提案する大規模カーネルベースのConvNetは,画像認識における主要な性能を示す。大規模なカーネルが、もともと熟練していないドメインにおいて、ConvNetの例外的なパフォーマンスを解放する鍵であることを発見した。
論文参考訳（メタデータ） (2023-11-27T07:48:50Z)
Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文参考訳（メタデータ） (2023-05-30T21:05:23Z)
ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文参考訳（メタデータ） (2023-01-02T18:59:31Z)
PSO-Convolutional Neural Networks with Heterogeneous Learning Rate [4.243356707599486]
畳み込みニューラルネットワーク(ConvNetsまたはCNNs)は、コンピュータビジョンと関連する分野の領域に率直に展開されている。本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。このような枠組みでは、各ConvNetの重みのベクトルは位相空間の粒子として介在し、PSOはトレーニング性能と一般化を促進するためにグラディエント・ディクセント(SGD)と動的に作用する。
論文参考訳（メタデータ） (2022-05-20T22:47:19Z)
Focal Modulation Networks [105.93086472906765]
自己注意(SA)は完全に焦点変調ネットワーク(FocalNet)に置き換えられる ImageNet-1Kの精度は82.3%、83.9%である。 FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。
論文参考訳（メタデータ） (2022-03-22T17:54:50Z)
ConTNet: Why not use convolution and transformer at the same time? [28.343371000297747]
トランスとConvNetアーキテクチャを組み合わせて、大きなレセプティブフィールドを提供するConTNetを提案します。画像分類と下流タスクにおけるその優位性と有効性を提示する。 ConTNetがCVタスクの有用なバックボーンとなり、モデル設計に新しいアイデアをもたらすことを期待しています。
論文参考訳（メタデータ） (2021-04-27T22:29:55Z)
Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文参考訳（メタデータ） (2021-01-27T18:55:27Z)
Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文参考訳（メタデータ） (2020-10-28T08:49:45Z)
DRU-net: An Efficient Deep Convolutional Neural Network for Medical Image Segmentation [2.3574651879602215]
残留ネットワーク(ResNet)と密結合ネットワーク(DenseNet)は、ディープ畳み込みニューラルネットワーク(DCNN)のトレーニング効率と性能を大幅に改善した。両ネットワークの利点を考慮した効率的なネットワークアーキテクチャを提案する。
論文参考訳（メタデータ） (2020-04-28T12:16:24Z)
DyNet: Dynamic Convolution for Accelerating Convolutional Neural Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。 MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文参考訳（メタデータ） (2020-04-22T16:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。