論文の概要: Involution: Inverting the Inherence of Convolution for Visual
Recognition
- arxiv url: http://arxiv.org/abs/2103.06255v1
- Date: Wed, 10 Mar 2021 18:40:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-11 14:50:32.605291
- Title: Involution: Inverting the Inherence of Convolution for Visual
Recognition
- Title(参考訳): インボリューション:視覚認識のためのコンボリューションのインボリューションの反転
- Authors: Duo Li, Jie Hu, Changhu Wang, Xiangtai Li, Qi She, Lei Zhu, Tong
Zhang, Qifeng Chen
- Abstract要約: 本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
- 参考スコア(独自算出の注目度): 72.88582255910835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolution has been the core ingredient of modern neural networks,
triggering the surge of deep learning in vision. In this work, we rethink the
inherent principles of standard convolution for vision tasks, specifically
spatial-agnostic and channel-specific. Instead, we present a novel atomic
operation for deep neural networks by inverting the aforementioned design
principles of convolution, coined as involution. We additionally demystify the
recent popular self-attention operator and subsume it into our involution
family as an over-complicated instantiation. The proposed involution operator
could be leveraged as fundamental bricks to build the new generation of neural
networks for visual recognition, powering different deep learning models on
several prevalent benchmarks, including ImageNet classification, COCO detection
and segmentation, together with Cityscapes segmentation. Our involution-based
models improve the performance of convolutional baselines using ResNet-50 by up
to 1.6% top-1 accuracy, 2.5% and 2.4% bounding box AP, and 4.7% mean IoU
absolutely while compressing the computational cost to 66%, 65%, 72%, and 57%
on the above benchmarks, respectively. Code and pre-trained models for all the
tasks are available at https://github.com/d-li14/involution.
- Abstract(参考訳): 畳み込みは現代のニューラルネットワークの中核的な要素であり、視覚におけるディープラーニングの急増を引き起こしている。
本研究では,視覚タスク,特に空間に依存しない,チャネル固有の標準畳み込みの原理を再考する。
その代わり,前述の畳み込みの設計原理を逆向きにすることで,ディープニューラルネットワークのための新しい原子操作を提案する。
さらに、最近人気のセルフアテンションオペレーターを軽視し、過度に複雑なインスタンス化としてInvolutionファミリーにサブミットします。
提案する畳み込み演算子は、イメージネット分類、ココ検出、セグメンテーションを含むいくつかの一般的なベンチマークで異なるディープラーニングモデルと、シティスケープセグメンテーションを駆動する、視覚認識のための新しい世代のニューラルネットワークを構築するための基本的なレンガとして活用することができる。
ResNet-50による畳み込みベースラインの性能は最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は計算コストを66%、65%、72%、そして57%に圧縮しながら完全にIoUを意味する。
すべてのタスクのコードと事前トレーニングされたモデルはhttps://github.com/d-li14/involution.comで入手できる。
関連論文リスト
- Mechanism of feature learning in convolutional neural networks [14.612673151889615]
我々は、畳み込みニューラルネットワークが画像データからどのように学習するかのメカニズムを特定する。
我々は,フィルタの共分散とパッチベースAGOPの相関関係の同定を含む,アンザッツの実証的証拠を提示する。
次に、パッチベースのAGOPを用いて、畳み込みカーネルマシンの深い特徴学習を可能にすることにより、結果の汎用性を実証する。
論文 参考訳(メタデータ) (2023-09-01T16:30:02Z) - Evolution of Activation Functions for Deep Learning-Based Image
Classification [0.0]
活性化関数(AF)は、ニューラルネットワークの性能において重要な役割を果たす。
AFを進化させる新しい3つの集団共進化アルゴリズムを提案する。
MNIST、FashionMNIST、KMNIST、USPSの4つのデータセットでテストした結果、優れたAFとAFアーキテクチャを見つけるためのパフォーマンスアルゴリズムであることが証明された。
論文 参考訳(メタデータ) (2022-06-24T05:58:23Z) - X-volution: On the unification of convolution and self-attention [52.80459687846842]
本稿では,畳み込み操作と自己注意操作の両方からなるマルチブランチ基本モジュールを提案する。
提案したX-進化は、非常に競争力のある視覚的理解の改善を実現する。
論文 参考訳(メタデータ) (2021-06-04T04:32:02Z) - Implementing a foveal-pit inspired filter in a Spiking Convolutional
Neural Network: a preliminary study [0.0]
我々は,網膜卵管刺激によるガウスフィルタとランク順符号化の差異を取り入れたスポーキング畳み込みニューラルネットワーク(SCNN)を提示した。
このモデルは、Nengoライブラリーで実装されているように、スパイキングニューロンで動作するように適応されたバックプロパゲーションアルゴリズムの変種を用いて訓練される。
ネットワークは最大90%の精度で達成され、損失はクロスエントロピー関数を用いて計算される。
論文 参考訳(メタデータ) (2021-05-29T15:28:30Z) - Inception Convolution with Efficient Dilation Search [121.41030859447487]
拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
論文 参考訳(メタデータ) (2020-12-25T14:58:35Z) - EvoPose2D: Pushing the Boundaries of 2D Human Pose Estimation using
Accelerated Neuroevolution with Weight Transfer [82.28607779710066]
生物進化にインスパイアされたニューラル・アーキテクチャー・サーチの一形態であるニューラル・エボリューションの2次元ヒューマン・ポーズ・ネットワークの設計への応用について検討する。
本手法は,最先端の手設計ネットワークよりも効率的かつ高精度なネットワーク設計を実現する。
論文 参考訳(メタデータ) (2020-11-17T05:56:16Z) - Binarizing MobileNet via Evolution-based Searching [66.94247681870125]
そこで本稿では,MobileNet をバイナライズする際の構築と訓練を容易にするための進化的探索手法を提案する。
ワンショットアーキテクチャ検索フレームワークに着想を得て、グループ畳み込みのアイデアを操り、効率的な1ビット畳み込みニューラルネットワーク(CNN)を設計する。
我々の目標は、グループ畳み込みの最良の候補を探索することで、小さなが効率的なバイナリニューラルアーキテクチャを考案することである。
論文 参考訳(メタデータ) (2020-05-13T13:25:51Z) - Dynamic Region-Aware Convolution [85.20099799084026]
本稿では,複数のフィルタを対応する空間領域に自動的に割り当てる動的領域認識畳み込み(DRConv)を提案する。
ImageNet分類において、DRConvベースのShuffleNetV2-0.5xは6.3%の相対的な改善と46M乗算加算レベルで67.1%の最先端性能を達成する。
論文 参考訳(メタデータ) (2020-03-27T05:49:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。