論文の概要: DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural
Network
- arxiv url: http://arxiv.org/abs/2303.02165v3
- Date: Mon, 29 May 2023 19:27:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 03:01:28.593655
- Title: DeepMAD: Mathematical Architecture Design for Deep Convolutional Neural
Network
- Title(参考訳): DeepMAD:Deep Convolutional Neural Networkのための数学的アーキテクチャ設計
- Authors: Xuan Shen, Yaohua Wang, Ming Lin, Yilun Huang, Hao Tang, Xiuyu Sun,
Yanzhi Wang
- Abstract要約: 近年の研究では、純粋CNNモデルは注意深く調整した場合、ViTモデルと同じくらい優れた性能が得られることが示されている。
高性能CNNモデルの設計にはDeepMAD(Deep CNN)という新しいフレームワークが提案されている。
DeepMADの優位性は、複数の大規模コンピュータビジョンベンチマークデータセットで検証されている。
- 参考スコア(独自算出の注目度): 31.93843516449377
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advances in Vision Transformer (ViT) refresh the state-of-the-art
performances in various vision tasks, overshadowing the conventional CNN-based
models. This ignites a few recent striking-back research in the CNN world
showing that pure CNN models can achieve as good performance as ViT models when
carefully tuned. While encouraging, designing such high-performance CNN models
is challenging, requiring non-trivial prior knowledge of network design. To
this end, a novel framework termed Mathematical Architecture Design for Deep
CNN (DeepMAD) is proposed to design high-performance CNN models in a principled
way. In DeepMAD, a CNN network is modeled as an information processing system
whose expressiveness and effectiveness can be analytically formulated by their
structural parameters. Then a constrained mathematical programming (MP) problem
is proposed to optimize these structural parameters. The MP problem can be
easily solved by off-the-shelf MP solvers on CPUs with a small memory
footprint. In addition, DeepMAD is a pure mathematical framework: no GPU or
training data is required during network design. The superiority of DeepMAD is
validated on multiple large-scale computer vision benchmark datasets. Notably
on ImageNet-1k, only using conventional convolutional layers, DeepMAD achieves
0.7% and 1.5% higher top-1 accuracy than ConvNeXt and Swin on Tiny level, and
0.8% and 0.9% higher on Small level.
- Abstract(参考訳): ビジョントランスフォーマー(vit)の急速な進歩は、様々なビジョンタスクにおける最先端のパフォーマンスをリフレッシュし、従来のcnnベースのモデルを過大評価した。
これは、CNNの世界における最近の衝撃的な研究の発火であり、純粋なCNNモデルは、注意深く調整されたときにViTモデルと同じくらい優れたパフォーマンスを達成できることを示している。
このような高性能cnnモデルの設計を奨励する一方で、ネットワーク設計の非自明な事前知識を必要とする。
この目的のために、Deep CNN(DeepMAD)のための数学的アーキテクチャ設計(Mathematical Architecture Design for Deep CNN)と呼ばれる新しいフレームワークを提案する。
deepmadでは、cnnネットワークは、その構造パラメータによって表現性と有効性を解析的に定式化できる情報処理システムとしてモデル化される。
次に、これらの構造パラメータを最適化するために制約付き数理計画法(mp)問題を提案する。
MP問題は、メモリフットプリントが小さいCPU上の既製のMPソルバで簡単に解決できる。
さらにDeepMADは純粋に数学的フレームワークであり、ネットワーク設計時にGPUやトレーニングデータを必要としない。
DeepMADの優位性は、複数の大規模コンピュータビジョンベンチマークデータセットで検証されている。
ImageNet-1kでは、従来の畳み込み層のみを使用して、DeepMADは、TinyレベルのConvNeXtやSwinよりも0.7%、トップ1の精度が1.5%高い。
関連論文リスト
- Enhancing Small Object Encoding in Deep Neural Networks: Introducing
Fast&Focused-Net with Volume-wise Dot Product Layer [0.0]
我々は、小さなオブジェクトを固定長特徴ベクトルに符号化するのに適した、新しいディープニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
Fast&Focused-Netは、CNNのいくつかの固有の制限に対処するために設計された、新たに提案された一連のレイヤであるVDP(Volume-wise Dot Product)レイヤを採用しています。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
画像分類における変換器エンコーダ(ViT)と組み合わせた場合
論文 参考訳(メタデータ) (2024-01-18T09:31:25Z) - Transferability of Convolutional Neural Networks in Stationary Learning
Tasks [96.00428692404354]
本稿では,大規模な空間問題に対する畳み込みニューラルネットワーク(CNN)の効率的なトレーニングのための新しいフレームワークを提案する。
このような信号の小さなウィンドウで訓練されたCNNは、再学習することなく、はるかに大きなウィンドウでほぼ性能を発揮することを示す。
以上の結果から,CNNは10人未満の訓練を受けた後,数百人のエージェントによる問題に対処できることが示唆された。
論文 参考訳(メタデータ) (2023-07-21T13:51:45Z) - InternImage: Exploring Large-Scale Vision Foundation Models with
Deformable Convolutions [95.94629864981091]
この研究は、パラメータの増加やViTsのようなトレーニングデータから得られるインターンイメージと呼ばれる、CNNベースの新しい大規模ファンデーションモデルを提案する。
提案されたInternImageは、従来のCNNの厳格な帰納バイアスを低減し、ViTのような大規模データから、より強く堅牢なパターンを学習できるようにする。
論文 参考訳(メタデータ) (2022-11-10T18:59:04Z) - No More Strided Convolutions or Pooling: A New CNN Building Block for
Low-Resolution Images and Small Objects [3.096615629099617]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。
そこで我々は,SPD-Convと呼ばれる新しいCNNビルディングブロックを提案し,各ストリップ畳み込み層と各プール層に代えて提案する。
論文 参考訳(メタデータ) (2022-08-07T05:09:18Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Towards Enabling Dynamic Convolution Neural Network Inference for Edge
Intelligence [0.0]
エッジインテリジェンスの最近の進歩は、スループットを高め、レイテンシを低減するために、エッジネットワーク上のCNN推論を必要とする。
柔軟性を得るためには、さまざまなモバイルデバイスに対する動的パラメータ割り当ては、事前に定義されたか、オンザフライで定義されたCNNアーキテクチャを実装する必要がある。
本稿では,スケーラブルで動的に分散したCNN推論を高速に設計するためのライブラリベースのアプローチを提案する。
論文 参考訳(メタデータ) (2022-02-18T22:33:42Z) - Greedy Network Enlarging [53.319011626986004]
本稿では,計算のリアルタイム化に基づくグリーディ・ネットワーク拡大手法を提案する。
異なる段階の計算をステップバイステップで修正することで、拡張されたネットワークはMACの最適な割り当てと利用を提供する。
GhostNetへの我々の手法の適用により、最先端の80.9%と84.3%のImageNet Top-1アキュラシーを実現する。
論文 参考訳(メタデータ) (2021-07-31T08:36:30Z) - Benchmarking CNN on 3D Anatomical Brain MRI: Architectures, Data
Augmentation and Deep Ensemble Learning [2.1446056201053185]
我々は最近のSOTA(State-of-the-art)3D CNNの広範なベンチマークを提案し、データ拡張と深層アンサンブル学習の利点も評価した。
年齢予測,性別分類,統合失調症診断の3つの課題について,N=10kスキャンを含む多地点の脳解剖学的MRIデータセットを用いて実験を行った。
その結果,VBM画像の予測精度は擬似RAWデータよりも有意に向上した。
DenseNetとSmall-DenseNetは、私たちが提案したより軽量なバージョンで、すべてのデータレシエーションのパフォーマンスにおいて優れた妥協を提供する。
論文 参考訳(メタデータ) (2021-06-02T13:00:35Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - When deep learning models on GPU can be accelerated by taking advantage
of unstructured sparsity [0.0]
本稿では、グラフィック処理ユニット(GPU)上でのスパース畳み込みニューラルネットワーク(CNN)層の効率向上に焦点をあてる。
現代のCNNモデルは、大容量の係数を必要とし、畳み込みを行うために数百万のMAC操作を必要としている。
畳み込み層の計算を高速化するために,直接スパース演算を用いることの価値を示す。
論文 参考訳(メタデータ) (2020-11-12T10:13:48Z) - Exploring Deep Hybrid Tensor-to-Vector Network Architectures for
Regression Based Speech Enhancement [53.47564132861866]
我々は、CNN-TTというハイブリッドアーキテクチャが、モデルパラメータを小さくして高品質な性能を維持することができることを見出した。
CNN-TTは、音声品質を改善するために、特徴抽出のために下部に複数の畳み込み層で構成されている。
論文 参考訳(メタデータ) (2020-07-25T22:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。