論文の概要: Enhancing Small Object Encoding in Deep Neural Networks: Introducing
Fast&Focused-Net with Volume-wise Dot Product Layer
- arxiv url: http://arxiv.org/abs/2401.09823v1
- Date: Thu, 18 Jan 2024 09:31:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 17:22:59.844603
- Title: Enhancing Small Object Encoding in Deep Neural Networks: Introducing
Fast&Focused-Net with Volume-wise Dot Product Layer
- Title(参考訳): 深層ニューラルネットワークにおける小物体符号化の強化:ボリュームワイズドット製品層を用いた高速集中型ネットの導入
- Authors: Ali Tofik, Roy Partha Pratim
- Abstract要約: 我々は、小さなオブジェクトを固定長特徴ベクトルに符号化するのに適した、新しいディープニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
Fast&Focused-Netは、CNNのいくつかの固有の制限に対処するために設計された、新たに提案された一連のレイヤであるVDP(Volume-wise Dot Product)レイヤを採用しています。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
画像分類における変換器エンコーダ(ViT)と組み合わせた場合
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Fast&Focused-Net, a novel deep neural network
architecture tailored for efficiently encoding small objects into fixed-length
feature vectors. Contrary to conventional Convolutional Neural Networks (CNNs),
Fast&Focused-Net employs a series of our newly proposed layer, the Volume-wise
Dot Product (VDP) layer, designed to address several inherent limitations of
CNNs. Specifically, CNNs often exhibit a smaller effective receptive field than
their theoretical counterparts, limiting their vision span. Additionally, the
initial layers in CNNs produce low-dimensional feature vectors, presenting a
bottleneck for subsequent learning. Lastly, the computational overhead of CNNs,
particularly in capturing diverse image regions by parameter sharing, is
significantly high. The VDP layer, at the heart of Fast&Focused-Net, aims to
remedy these issues by efficiently covering the entire image patch information
with reduced computational demand. Experimental results demonstrate the prowess
of Fast&Focused-Net in a variety of applications. For small object
classification tasks, our network outperformed state-of-the-art methods on
datasets such as CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, and Fashion-MNIST.
In the context of larger image classification, when combined with a transformer
encoder (ViT), Fast&Focused-Net produced competitive results for OpenImages V6,
ImageNet-1K, and Places365 datasets. Moreover, the same combination showcased
unparalleled performance in text recognition tasks across SVT, IC15, SVTP, and
HOST datasets. This paper presents the architecture, the underlying motivation,
and extensive empirical evidence suggesting that Fast&Focused-Net is a
promising direction for efficient and focused deep learning.
- Abstract(参考訳): 本稿では,小物体を固定長特徴ベクトルに効率的に符号化するためのニューラルネットワークアーキテクチャであるFast&Focused-Netを紹介する。
従来の畳み込みニューラルネットワーク(CNN)とは対照的に、Fast&Focused-Netは、新たに提案した一連のレイヤであるVDP(Volume-wise Dot Product)を採用。
特に、CNNは、理論上の領域よりもより小さい有効受容領域を示し、視界を制限している。
さらに、CNNの初期層は低次元の特徴ベクトルを生成し、その後の学習のボトルネックとなる。
最後に、cnnの計算オーバーヘッド、特にパラメータ共有による多様な画像領域のキャプチャにおいて、かなり高い。
fast&focus-netの中心にあるvdp層は、画像パッチ情報全体をコンピュータの要求を減らすことで効率的にカバーすることで、これらの問題を解決することを目的としている。
実験結果は,様々なアプリケーションにおける高速・集中型ネットの長所を実証する。
CIFAR-10, CIFAR-100, STL-10, SVHN-Cropped, Fashion-MNISTなどのデータセットでは, オブジェクト分類タスクにおいて, ネットワークが最先端の手法よりも優れていた。
より大きな画像分類の文脈において、トランスフォーマーエンコーダ(ViT)と組み合わせることで、Fast&Focused-NetはOpenImages V6、ImageNet-1K、Places365データセットの競合結果を生み出した。
さらに、同じ組み合わせは、SVT、IC15、SVTP、HOSTデータセットにわたるテキスト認識タスクにおいて、非並列のパフォーマンスを示した。
本稿では,Fast&Focused-Netが効率的で集中的なディープラーニングのための有望な方向であることを示唆するアーキテクチャ,基礎となるモチベーション,広範な実証的証拠について述べる。
関連論文リスト
- Multiscale Low-Frequency Memory Network for Improved Feature Extraction
in Convolutional Neural Networks [13.815116154370834]
本稿では,Multiscale Low-Frequency Memory (MLFM) Networkを提案する。
MLFMは低周波情報を効率よく保存し、目標とするコンピュータビジョンタスクの性能を向上させる。
我々の研究は、既存のCNN基盤の上に構築され、コンピュータビジョンの今後の進歩の道を開く。
論文 参考訳(メタデータ) (2024-03-13T00:48:41Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Pushing the Efficiency Limit Using Structured Sparse Convolutions [82.31130122200578]
本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。
我々は、SSCが効率的なアーキテクチャにおける一般的なレイヤ(奥行き、グループ回り、ポイント回りの畳み込み)の一般化であることを示す。
SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-10-23T18:37:22Z) - No More Strided Convolutions or Pooling: A New CNN Building Block for
Low-Resolution Images and Small Objects [3.096615629099617]
畳み込みニューラルネットワーク(CNN)は多くのコンピュータビジョンタスクで大きな成功を収めた。
しかし、画像が解像度の低いタスクやオブジェクトが小さいタスクでは、パフォーマンスが急速に低下する。
そこで我々は,SPD-Convと呼ばれる新しいCNNビルディングブロックを提案し,各ストリップ畳み込み層と各プール層に代えて提案する。
論文 参考訳(メタデータ) (2022-08-07T05:09:18Z) - Target Aware Network Architecture Search and Compression for Efficient
Knowledge Transfer [9.434523476406424]
本稿では,効率的な知識伝達を可能にするTASCNetという2段階のフレームワークを提案する。
TASCNetは、トレーニング可能なパラメータとFLOPの両方を削減することにより、目標タスク上の事前学習されたCNNの計算複雑性を低減する。
コンピュータビジョンタスクと同様に、映画レビューセンチメント分析タスクでも実験を行った。
論文 参考訳(メタデータ) (2022-05-12T09:11:00Z) - CondenseNeXt: An Ultra-Efficient Deep Neural Network for Embedded
Systems [0.0]
畳み込みニューラルネットワーク(英: Convolutional Neural Network, CNN)は、画像センサが捉えた視覚画像の分析に広く用いられているディープニューラルネットワーク(DNN)のクラスである。
本稿では,組込みシステム上でのリアルタイム推論のために,既存のCNNアーキテクチャの性能を改善するために,深層畳み込みニューラルネットワークアーキテクチャの新しい変種を提案する。
論文 参考訳(メタデータ) (2021-12-01T18:20:52Z) - Learning Versatile Neural Architectures by Propagating Network Codes [74.2450894473073]
アーキテクチャの性能を複数のデータセットやタスクで予測できる新しい「神経予測器」を提案する。
ncpはネットワークコードから学習するが、オリジナルデータではないため、データセット間で効率的にアーキテクチャを更新することができる。
論文 参考訳(メタデータ) (2021-03-24T15:20:38Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - KiU-Net: Overcomplete Convolutional Architectures for Biomedical Image
and Volumetric Segmentation [71.79090083883403]
トラディショナル・エンコーダ・デコーダに基づく手法は, より小さな構造を検出でき, 境界領域を正確に分割できない。
本稿では,(1)入力の細部と正確なエッジを捉えることを学ぶ完全畳み込みネットワークKite-Netと,(2)高レベルの特徴を学習するU-Netの2つの枝を持つKiU-Netを提案する。
提案手法は,より少ないパラメータとより高速な収束の利点により,最近のすべての手法と比較して性能が向上する。
論文 参考訳(メタデータ) (2020-10-04T19:23:33Z) - Improved Residual Networks for Image and Video Recognition [98.10703825716142]
ResNets(Residual Networks)は、CNN(Convolutional Neural Network)アーキテクチャの強力なタイプである。
ベースライン上での精度と学習収束性を一貫した改善を示す。
提案手法では,高度に深いネットワークをトレーニングできるが,ベースラインは厳密な最適化問題を示す。
論文 参考訳(メタデータ) (2020-04-10T11:09:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。