論文の概要: Compact and Efficient Neural Networks for Image Recognition Based on Learned 2D Separable Transform
- arxiv url: http://arxiv.org/abs/2505.06578v1
- Date: Sat, 10 May 2025 09:31:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:48.921792
- Title: Compact and Efficient Neural Networks for Image Recognition Based on Learned 2D Separable Transform
- Title(参考訳): 学習2次元分離変換に基づく画像認識のためのコンパクトかつ効率的なニューラルネットワーク
- Authors: Maxim Vashkevich, Egor Krivalcevich,
- Abstract要約: 本稿では,画像認識タスクのためのニューラルネットワーク(NN)アーキテクチャを構築するための新しいタイプの計算層として,学習された2次元分離可能変換(LST)を提案する。
一つのLST層をベースとしたNN分類器が,MNISTデータセット上で98.02%の精度を実現し,パラメータはわずか9.5kであることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The paper presents a learned two-dimensional separable transform (LST) that can be considered as a new type of computational layer for constructing neural network (NN) architecture for image recognition tasks. The LST based on the idea of sharing the weights of one fullyconnected (FC) layer to process all rows of an image. After that, a second shared FC layer is used to process all columns of image representation obtained from the first layer. The use of LST layers in a NN architecture significantly reduces the number of model parameters compared to models that use stacked FC layers. We show that a NN-classifier based on a single LST layer followed by an FC layer achieves 98.02\% accuracy on the MNIST dataset, while having only 9.5k parameters. We also implemented a LST-based classifier for handwritten digit recognition on the FPGA platform to demonstrate the efficiency of the suggested approach for designing a compact and high-performance implementation of NN models. Git repository with supplementary materials: https://github.com/Mak-Sim/LST-2d
- Abstract(参考訳): 本稿では,画像認識タスクのためのニューラルネットワーク(NN)アーキテクチャを構築するための新しいタイプの計算層として,学習された2次元分離可能変換(LST)を提案する。
LSTは、画像のすべての行を処理するために、1つの完全連結(FC)層の重みを共有するという考え方に基づいている。
その後、第2の共有FC層を使用して、第1の層から得られた画像表現のすべての列を処理する。
NNアーキテクチャにおけるLST層の利用は、重ねられたFC層を使用するモデルと比較してモデルパラメータの数を大幅に削減する。
一つのLST層に基づくNN分類器がMNISTデータセット上で98.02\%の精度を達成し,9.5kのパラメータしか持たないことを示す。
また、FPGAプラットフォーム上で手書き文字認識のためのLSTベースの分類器を実装し、NNモデルのコンパクトかつ高性能な実装を設計するための提案手法の有効性を実証した。
Gitリポジトリの補足資料:https://github.com/Mak-Sim/LST-2d
関連論文リスト
- Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。
私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文 参考訳(メタデータ) (2024-07-16T15:55:38Z) - SIMAP: A simplicial-map layer for neural networks [0.196629787330046]
SIMAPレイヤはSimplicial-Map Neural Networks (SMNN)の拡張版である
SMNNとは異なり、サポートセットは、行列ベースの乗算アルゴリズムで効率よく計算される、固定された最大値の単純度に基づいている。
論文 参考訳(メタデータ) (2024-03-22T10:06:42Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - Basis Scaling and Double Pruning for Efficient Inference in
Network-Based Transfer Learning [1.3467579878240454]
畳み込み層をフィルタとして正規基底ベクトルを持つ畳み込み層と、特徴を再スケーリングする"BasisScalingConv"層に分解する。
CIFAR-10では74.6%、MNISTでは98.9%のプルーニング比が得られる。
論文 参考訳(メタデータ) (2021-08-06T00:04:02Z) - ResMLP: Feedforward networks for image classification with
data-efficient training [73.26364887378597]
画像分類のための多層パーセプトロン上に構築されたアーキテクチャであるResMLPを提案する。
Timmライブラリと事前トレーニングされたモデルに基づいたコードを共有します。
論文 参考訳(メタデータ) (2021-05-07T17:31:44Z) - RepMLP: Re-parameterizing Convolutions into Fully-connected Layers for
Image Recognition [123.59890802196797]
画像認識のための多層パーセプトロン型ニューラルネットワーク構築ブロックであるRepMLPを提案する。
トレーニング中にRepMLP内に畳み込み層を構築し,それをFCにマージして推論を行う。
従来のCNNにRepMLPを挿入することで、ImageNetでは1.8%の精度、顔認識では2.9%、FLOPの低いCityscapeでは2.3%のmIoUを改善します。
論文 参考訳(メタデータ) (2021-05-05T06:17:40Z) - Evidential fully convolutional network for semantic segmentation [6.230751621285322]
本稿では,完全畳み込みネットワーク(fcn)と,イメージセマンティクスセグメンテーションのためのデンプスターシェーファー層からなるハイブリッドアーキテクチャを提案する。
提案手法は,多クラス集合に混乱する画素を割り当てることで,意味セグメンテーションの精度とキャリブレーションを改善することを示す。
論文 参考訳(メタデータ) (2021-03-25T01:21:22Z) - Spatial Dependency Networks: Neural Layers for Improved Generative Image
Modeling [79.15521784128102]
画像生成装置(デコーダ)を構築するための新しいニューラルネットワークを導入し、可変オートエンコーダ(VAE)に適用する。
空間依存ネットワーク(sdns)では、ディープニューラルネットの各レベルにおける特徴マップを空間的にコヒーレントな方法で計算する。
空間依存層による階層型vaeのデコーダの強化は密度推定を大幅に改善することを示す。
論文 参考訳(メタデータ) (2021-03-16T07:01:08Z) - Dual-constrained Deep Semi-Supervised Coupled Factorization Network with
Enriched Prior [80.5637175255349]
本稿では、DS2CF-Netと呼ばれる、拡張された事前制約付きDual-Constrained Deep Semi-Supervised Coupled Factorization Networkを提案する。
隠れた深い特徴を抽出するために、DS2CF-Netは、深い構造と幾何学的な構造に制約のあるニューラルネットワークとしてモデル化される。
我々のネットワークは、表現学習とクラスタリングのための最先端の性能を得ることができる。
論文 参考訳(メタデータ) (2020-09-08T13:10:21Z) - Sparse Coding Driven Deep Decision Tree Ensembles for Nuclear
Segmentation in Digital Pathology Images [15.236873250912062]
デジタル病理画像セグメンテーションタスクにおいて、ディープニューラルネットワークと高い競争力を持つ、容易に訓練されながら強力な表現学習手法を提案する。
ScD2TEと略すこの手法はスパースコーディング駆動の深層決定木アンサンブルと呼ばれ、表現学習の新しい視点を提供する。
論文 参考訳(メタデータ) (2020-08-13T02:59:31Z) - Convolutional Networks with Dense Connectivity [59.30634544498946]
Dense Convolutional Network (DenseNet)を導入し、フィードフォワード方式で各レイヤを他のすべてのレイヤに接続する。
各レイヤについて、先行するすべてのレイヤのフィーチャーマップをインプットとして使用し、それ自身のフィーチャーマップをその後のすべてのレイヤへのインプットとして使用します。
提案したアーキテクチャを、4つの高度に競争力のあるオブジェクト認識ベンチマークタスクで評価する。
論文 参考訳(メタデータ) (2020-01-08T06:54:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。