論文の概要: Inception Convolution with Efficient Dilation Search
- arxiv url: http://arxiv.org/abs/2012.13587v1
- Date: Fri, 25 Dec 2020 14:58:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 04:33:58.596751
- Title: Inception Convolution with Efficient Dilation Search
- Title(参考訳): 効率的な拡張探索によるインセプション・コンボリューション
- Authors: Jie Liu, Chuming Li, Feng Liang, Chen Lin, Ming Sun, Junjie Yan, Wanli
Ouyang, Dong Xu
- Abstract要約: 拡散畳み込みは、効果的な受容場を制御し、オブジェクトの大規模な分散を処理するための標準的な畳み込みニューラルネットワークの重要な変異体である。
そこで我々は,異なる軸,チャネル,層間の独立な拡散を有する拡張畳み込みの新たな変異体,すなわち開始(拡張)畳み込みを提案する。
本稿では,データに複雑なインセプション・コンボリューションを適合させる実用的な手法を探索し,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
- 参考スコア(独自算出の注目度): 121.41030859447487
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dilation convolution is a critical mutant of standard convolution neural
network to control effective receptive fields and handle large scale variance
of objects without introducing additional computation. However, fitting the
effective reception field to data with dilated convolution is less discussed in
the literature. To fully explore its potentials, we proposed a new mutant of
dilated convolution, namely inception (dilated) convolution where the
convolutions have independent dilation among different axes, channels and
layers. To explore a practical method for fitting the complex inception
convolution to the data, a simple while effective dilation search
algorithm(EDO) based on statistical optimization is developed. The search
method operates in a zero-cost manner which is extremely fast to apply on large
scale datasets. Empirical results reveal that our method obtains consistent
performance gains in an extensive range of benchmarks. For instance, by simply
replace the 3 x 3 standard convolutions in ResNet-50 backbone with inception
convolution, we improve the mAP of Faster-RCNN on MS-COCO from 36.4% to 39.2%.
Furthermore, using the same replacement in ResNet-101 backbone, we achieve a
huge improvement over AP score from 60.2% to 68.5% on COCO val2017 for the
bottom up human pose estimation.
- Abstract(参考訳): 拡張畳み込み(dilation convolution)は、有効な受容野を制御し、追加の計算を導入することなく、オブジェクトの大規模な分散を処理する標準畳み込みニューラルネットワークの重要な変異体である。
しかし、拡張畳み込みデータに有効な受信フィールドを合わせることは、文献では議論されていない。
その可能性を完全に探究するため,我々は,異なる軸,チャネル,層間でそれぞれ独立した拡張を有する拡張畳み込み (inception (dilated) convolution) という,拡張畳み込みの新しい変異体を提案した。
複雑なインセプション畳み込みをデータに適合させる実用的な方法を探るため,統計的最適化に基づく簡易かつ効果的な拡張探索アルゴリズム(EDO)を開発した。
探索法は,大規模データセットに適用することが極めて高速なゼロコスト方式で動作する。
実験の結果,本手法は広範囲のベンチマークで一貫した性能向上が得られることがわかった。
例えば、ResNet-50バックボーンの3x3標準の畳み込みをインセプション畳み込みに置き換えることで、MS-COCO上のFaster-RCNNのmAPを36.4%から39.2%に改善する。
さらに,resnet-101のバックボーンと同じ置き換えを用いて,ボトムアップの人間のポーズ推定において,apスコアを60.2%から68.5%まで大幅に改善した。
関連論文リスト
- D-FINE: Redefine Regression Task in DETRs as Fine-grained Distribution Refinement [37.78880948551719]
D-FINEは、優れた位置決め精度を実現する強力なリアルタイム物体検出器である。
D-FINEは、FDRとGlobal Optimal Localization Self-Distillation(GO-LSD)の2つの重要なコンポーネントから構成される。
Objects365で事前訓練された場合、D-FINE-L / Xは57.1% / 59.3%APとなり、既存のリアルタイム検出器を全て上回っている。
論文 参考訳(メタデータ) (2024-10-17T17:57:01Z) - E$^3$-Net: Efficient E(3)-Equivariant Normal Estimation Network [47.77270862087191]
正規推定のための等価性を実現するために,E3-Netを提案する。
本稿では,この作業に必要なトレーニングリソースを,従来の作業の1/8に大幅に削減する,効率的なランダムフレーム手法を提案する。
提案手法は, 合成と実世界の両方のデータセットにおいて優れた結果が得られ, 最先端技術よりもかなり優れている。
論文 参考訳(メタデータ) (2024-06-01T07:53:36Z) - DeformUX-Net: Exploring a 3D Foundation Backbone for Medical Image
Segmentation with Depthwise Deformable Convolution [26.746489317083352]
本稿では,CNNモデルのパイオニアである3D DeformUX-Netを紹介する。
計算効率に長範囲依存を適応させるため,体積変形可能な畳み込みを奥行き設定で再検討する。
我々の経験的評価は、3D DeformUX-Netが既存の最先端のViTや大規模なカーネル畳み込みモデルよりも一貫して優れていることを示している。
論文 参考訳(メタデータ) (2023-09-30T00:33:41Z) - CNN-transformer mixed model for object detection [3.5897534810405403]
本稿では,トランスを用いた畳み込みモジュールを提案する。
CNNが抽出した詳細特徴と変換器が抽出したグローバル特徴とを融合させることにより、モデルの認識精度を向上させることを目的とする。
Pascal VOCデータセットでの100ラウンドのトレーニングの後、結果の精度は81%に達し、resnet101[5]をバックボーンとして使用したRCNN[4]よりも4.6向上した。
論文 参考訳(メタデータ) (2022-12-13T16:35:35Z) - Focal Sparse Convolutional Networks for 3D Object Detection [121.45950754511021]
我々はスパースCNNの能力を高めるために2つの新しいモジュールを導入する。
焦点スパース・コンボリューション(Focals Conv)であり、焦点スパース・コンボリューションの多様変種である。
スパース・コンボリューションにおける空間的に学習可能な空間空間性は,高度な3次元物体検出に不可欠であることを示す。
論文 参考訳(メタデータ) (2022-04-26T17:34:10Z) - Invariance Learning in Deep Neural Networks with Differentiable Laplace
Approximations [76.82124752950148]
我々はデータ拡張を選択するための便利な勾配法を開発した。
我々はKronecker-factored Laplace近似を我々の目的とする限界確率に近似する。
論文 参考訳(メタデータ) (2022-02-22T02:51:11Z) - Involution: Inverting the Inherence of Convolution for Visual
Recognition [72.88582255910835]
本稿では,畳み込みの原理を逆転させることにより,深層ニューラルネットワークの新たな原子操作を提案する。
提案する畳み込み演算子は、視覚認識のための新しい世代のニューラルネットワークを構築するための基本ブロックとして利用することができる。
当社のInvolutionベースのモデルは、ResNet-50を使用した畳み込みベースラインのパフォーマンスを最大1.6%の精度、2.5%と2.4%のバウンディングボックスAP、4.7%は絶対にIoUを意味します。
論文 参考訳(メタデータ) (2021-03-10T18:40:46Z) - Attention-based Convolutional Autoencoders for 3D-Variational Data
Assimilation [11.143409762586638]
本論文では,畳み込みオートエンコーダを用いた3次元変分データ同化の解法を提案する。
提案手法は,従来の手法と同一の解法を持つが,計算複雑性が著しく低いことを示す。
論文 参考訳(メタデータ) (2021-01-06T16:23:58Z) - DrNAS: Dirichlet Neural Architecture Search [88.56953713817545]
ディリクレ分布をモデルとした連続緩和型混合重みをランダム変数として扱う。
最近開発されたパスワイズ微分により、ディリクレパラメータは勾配に基づく一般化で容易に最適化できる。
微分可能なNASの大きなメモリ消費を軽減するために, 単純かつ効果的な進行学習方式を提案する。
論文 参考訳(メタデータ) (2020-06-18T08:23:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。