論文の概要: Efficient Multi-order Gated Aggregation Network
- arxiv url: http://arxiv.org/abs/2211.03295v2
- Date: Mon, 20 Mar 2023 01:44:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 02:26:47.291647
- Title: Efficient Multi-order Gated Aggregation Network
- Title(参考訳): 効率的なマルチオーダーゲートアグリゲーションネットワーク
- Authors: Siyuan Li, Zedong Wang, Zicheng Liu, Cheng Tan, Haitao Lin, Di Wu,
Zhiyuan Chen, Jiangbin Zheng, Stan Z. Li
- Abstract要約: 本稿では,マルチオーダーゲーム理論相互作用の新たな視点から,現代のConvNetの表現能力について考察する。
現代のConvNetフレームワークでは、2つの機能ミキサーを概念的にシンプルで効果的な奥行きの畳み込みで調整します。
MogaNetと呼ばれる純粋なConvNetアーキテクチャの新しいファミリーが提案されている。
- 参考スコア(独自算出の注目度): 47.677872597485106
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Since the recent success of Vision Transformers (ViTs), explorations toward
ViT-style architectures have triggered the resurgence of ConvNets. In this
work, we explore the representation ability of modern ConvNets from a novel
view of multi-order game-theoretic interaction, which reflects inter-variable
interaction effects w.r.t.~contexts of different scales based on game theory.
Within the modern ConvNet framework, we tailor the two feature mixers with
conceptually simple yet effective depthwise convolutions to facilitate
middle-order information across spatial and channel spaces respectively. In
this light, a new family of pure ConvNet architecture, dubbed MogaNet, is
proposed, which shows excellent scalability and attains competitive results
among state-of-the-art models with more efficient use of parameters on ImageNet
and multifarious typical vision benchmarks, including COCO object detection,
ADE20K semantic segmentation, 2D\&3D human pose estimation, and video
prediction. Typically, MogaNet hits 80.0\% and 87.8\% top-1 accuracy with 5.2M
and 181M parameters on ImageNet, outperforming ParC-Net-S and ConvNeXt-L while
saving 59\% FLOPs and 17M parameters. The source code is available at
\url{https://github.com/Westlake-AI/MogaNet}.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)が最近成功して以来、ViTスタイルアーキテクチャへの探索がConvNetの復活を引き起こしている。
本研究では,ゲーム理論に基づく異なるスケールの変数間相互作用効果w.r.t.-コンテキストを反映した多階ゲーム理論インタラクションの新しい視点から,現代的なコンブネットの表現能力を検討する。
現代のConvNetフレームワークでは、2つの機能ミキサーを概念的にシンプルで効果的な奥行き畳み込みで調整し、空間空間とチャネル空間の中間次情報を容易にする。
本稿では,imagenetのパラメータをより効率的に利用し,cocoオブジェクト検出,ade20kセマンティクスセグメンテーション,2d\&3d人間のポーズ推定,ビデオ予測などの多彩な代表的な視覚ベンチマークを駆使した,最先端のモデル間での競争力と競合性を示す,新たな純粋convnetアーキテクチャであるmoganetを提案する。
一般的に、MogaNetは80.0\%と87.8\%のトップ-1の精度に達し、ImageNetでは5.2Mと181MのパラメータでParC-Net-SとConvNeXt-Lを上回り、59\%のFLOPと17Mのパラメータを節約している。
ソースコードは \url{https://github.com/westlake-ai/moganet} で入手できる。
関連論文リスト
- UniRepLKNet: A Universal Perception Large-Kernel ConvNet for Audio,
Video, Point Cloud, Time-Series and Image Recognition [64.07367773878386]
画像認識のための大規模カーネルベース畳み込みニューラルネットワーク(ConvNet)を提案する。
我々のモデルはイメージネットの精度88.0%、ADE20K mIoU55.6%、COCOボックスAP56.4%を達成し、最近提案された多くの強力な競合相手よりも優れた性能と高速性を示している。
論文 参考訳(メタデータ) (2023-11-27T07:48:50Z) - Are Large Kernels Better Teachers than Transformers for ConvNets? [82.4742785108714]
本稿では,最近出現した大規模カーネル畳み込みニューラルネットワーク(ConvNets)の新たな魅力を明らかにする。
論文 参考訳(メタデータ) (2023-05-30T21:05:23Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - PSO-Convolutional Neural Networks with Heterogeneous Learning Rate [4.243356707599486]
畳み込みニューラルネットワーク(ConvNetsまたはCNNs)は、コンピュータビジョンと関連する分野の領域に率直に展開されている。
本稿では,新しい粒子群最適化(PSO)によるConvNetsのトレーニングを提案する。
このような枠組みでは、各ConvNetの重みのベクトルは位相空間の粒子として介在し、PSOはトレーニング性能と一般化を促進するためにグラディエント・ディクセント(SGD)と動的に作用する。
論文 参考訳(メタデータ) (2022-05-20T22:47:19Z) - EdgeFormer: Improving Light-weight ConvNets by Learning from Vision
Transformers [29.09883780571206]
We propose EdgeFormer, a pure ConvNet based backbone model。
我々は、大域的な円形の畳み込み(GCC)と、軽量な畳み込みオペである位置埋め込みを組み合わせる。
実験の結果,提案するEdgeFormerは,一般的な軽量なConvNetやビジョントランスフォーマーベースモデルよりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2022-03-08T09:25:17Z) - ConTNet: Why not use convolution and transformer at the same time? [28.343371000297747]
トランスとConvNetアーキテクチャを組み合わせて、大きなレセプティブフィールドを提供するConTNetを提案します。
画像分類と下流タスクにおけるその優位性と有効性を提示する。
ConTNetがCVタスクの有用なバックボーンとなり、モデル設計に新しいアイデアをもたらすことを期待しています。
論文 参考訳(メタデータ) (2021-04-27T22:29:55Z) - Bottleneck Transformers for Visual Recognition [97.16013761605254]
視覚タスクに自己注意を組み込んだ強力なバックボーンアーキテクチャであるBoTNetを提案する。
我々は、ImageNetベンチマークにおいて84.7%のトップ1の精度で高いパフォーマンスを達成するモデルを提案する。
私たちのシンプルで効果的なアプローチが、将来のビジョンのための自己注意モデル研究の強力なベースラインになることを期待しています。
論文 参考訳(メタデータ) (2021-01-27T18:55:27Z) - Model Rubik's Cube: Twisting Resolution, Depth and Width for TinyNets [65.28292822614418]
解像度、深さ、幅を同時に拡大する巨大な公式は、ニューラルネットワークのためのルービックキューブを提供する。
本稿では,最小モデルサイズと計算コストで深層ニューラルネットワークを得るためのツイストルールを検討することを目的とする。
論文 参考訳(メタデータ) (2020-10-28T08:49:45Z) - DRU-net: An Efficient Deep Convolutional Neural Network for Medical
Image Segmentation [2.3574651879602215]
残留ネットワーク(ResNet)と密結合ネットワーク(DenseNet)は、ディープ畳み込みニューラルネットワーク(DCNN)のトレーニング効率と性能を大幅に改善した。
両ネットワークの利点を考慮した効率的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-04-28T12:16:24Z) - DyNet: Dynamic Convolution for Accelerating Convolutional Neural
Networks [16.169176006544436]
本稿では,画像内容に基づいてコンボリューションカーネルを適応的に生成する動的畳み込み手法を提案する。
MobileNetV3-Small/Largeアーキテクチャに基づいて、DyNetはImageNet上で70.3/77.1%のTop-1精度を達成し、2.9/1.9%改善した。
論文 参考訳(メタデータ) (2020-04-22T16:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。