論文の概要: Sequential Random Network for Fine-grained Image Classification
- arxiv url: http://arxiv.org/abs/2103.07230v1
- Date: Fri, 12 Mar 2021 12:16:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-15 18:53:46.649387
- Title: Sequential Random Network for Fine-grained Image Classification
- Title(参考訳): きめ細かい画像分類のための逐次ランダムネットワーク
- Authors: Chaorong Li, Malu Zhang, Wei Huang, Fengqing Qin, Anping Zeng,
Yuanyuan Huang
- Abstract要約: 本稿では、DCNNの性能を高めるためにSRN(Sequence Random Network)を提案する。
我々は、BLSTMといくつかのTanh-Dropoutブロック(BiLSTM-TDN)を使用して、DCNNの一次元特徴をさらに処理する。
BiLSTM-TDNによる特徴変換の後、認識性能が大幅に向上した。
- 参考スコア(独自算出の注目度): 8.674690926782931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep Convolutional Neural Network (DCNN) and Transformer have achieved
remarkable successes in image recognition. However, their performance in
fine-grained image recognition is still difficult to meet the requirements of
actual needs. This paper proposes a Sequence Random Network (SRN) to enhance
the performance of DCNN. The output of DCNN is one-dimensional features. This
one-dimensional feature abstractly represents image information, but it does
not express well the detailed information of image. To address this issue, we
use the proposed SRN which composed of BiLSTM and several Tanh-Dropout blocks
(called BiLSTM-TDN), to further process DCNN one-dimensional features for
highlighting the detail information of image. After the feature transform by
BiLSTM-TDN, the recognition performance has been greatly improved. We conducted
the experiments on six fine-grained image datasets. Except for FGVC-Aircraft,
the accuracies of the proposed methods on the other datasets exceeded 99%.
Experimental results show that BiLSTM-TDN is far superior to the existing
state-of-the-art methods. In addition to DCNN, BiLSTM-TDN can also be extended
to other models, such as Transformer.
- Abstract(参考訳): Deep Convolutional Neural Network (DCNN)とTransformerは、画像認識において顕著な成功を収めている。
しかし, 画像認識におけるそれらの性能は, 実際の要求を満たすことは依然として困難である。
本稿では、DCNNの性能を高めるためにSRN(Sequence Random Network)を提案する。
DCNNの出力は1次元機能です。
この一次元特徴は抽象的に画像情報を表すが、画像の詳細な情報をうまく表現していない。
本稿では,BiLSTMといくつかのTanh-Dropoutブロック(BiLSTM-TDN)から構成されるSRNを用いて,DCNNの一次元特徴を処理し,画像の詳細情報を強調する。
BiLSTM-TDNによる特徴変換の後、認識性能が大幅に向上した。
6つの微細な画像データセットで実験を行った。
FGVC-Aircraftを除いて、他のデータセットに対する提案手法の精度は99%を超えた。
実験の結果, BiLSTM-TDNは既存の最先端手法よりもはるかに優れていることがわかった。
DCNNに加えて、BiLSTM-TDNはTransformerのような他のモデルにも拡張できます。
関連論文リスト
- Recurrent Neural Networks for Still Images [0.0]
我々は、RNNが静止画をシーケンスとして解釈することで効果的に処理できることを論じる。
本稿では、画像などの2次元入力に適した新しいRNN設計と、従来の実装よりもメモリ効率が高いBiDirectional RNN(BiRNN)のカスタムバージョンを紹介する。
論文 参考訳(メタデータ) (2024-09-10T06:07:20Z) - SDR-Former: A Siamese Dual-Resolution Transformer for Liver Lesion
Classification Using 3D Multi-Phase Imaging [59.78761085714715]
本研究は肝病変分類のための新しいSDR-Formerフレームワークを提案する。
提案フレームワークは2つの臨床データセットに関する総合的な実験を通じて検証された。
科学コミュニティを支援するため,肝病変解析のための多段階MRデータセットを公開しています。
論文 参考訳(メタデータ) (2024-02-27T06:32:56Z) - Few-shot Learning using Data Augmentation and Time-Frequency
Transformation for Time Series Classification [6.830148185797109]
データ拡張による新しい数ショット学習フレームワークを提案する。
シークエンス・スペクトログラム・ニューラルネット(SSNN)も開発している。
本手法は,時系列分類における数ショット問題への対処法の適用性を実証する。
論文 参考訳(メタデータ) (2023-11-06T15:32:50Z) - Distance Weighted Trans Network for Image Completion [52.318730994423106]
本稿では,DWT(Distance-based Weighted Transformer)を利用した画像コンポーネント間の関係をよりよく理解するためのアーキテクチャを提案する。
CNNは、粗い事前の局所的なテクスチャ情報を強化するために使用される。
DWTブロックは、特定の粗いテクスチャやコヒーレントな視覚構造を復元するために使用される。
論文 参考訳(メタデータ) (2023-10-11T12:46:11Z) - Deep Multi-Threshold Spiking-UNet for Image Processing [51.88730892920031]
本稿では,SNN(Spike Neural Networks)とU-Netアーキテクチャを組み合わせた,画像処理のためのスパイキング-UNetの概念を紹介する。
効率的なスパイキング-UNetを実現するためには,スパイクによる高忠実度情報伝播の確保と,効果的なトレーニング戦略の策定という2つの課題に直面する。
実験の結果,画像のセグメンテーションとデノイングにおいて,スパイキングUNetは非スパイキングと同等の性能を発揮することがわかった。
論文 参考訳(メタデータ) (2023-07-20T16:00:19Z) - Learning cross space mapping via DNN using large scale click-through
logs [38.94796244812248]
低レベルの視覚信号と高レベルのセマンティクスのギャップは、ディープニューラルネットワーク(DNN)の継続的な開発によって徐々に橋渡しされている。
1つのネットワークにおける画像とクエリを同時にモデル化し、画像-クエリ類似度計算のための統合DNNモデルを提案する。
1000のクエリによる画像検索評価タスクにおける定性的な結果と定量的な結果の両方が,提案手法の優位性を示している。
論文 参考訳(メタデータ) (2023-02-26T09:00:35Z) - A heterogeneous group CNN for image super-resolution [127.2132400582117]
畳み込みニューラルネットワーク(CNN)は、深いアーキテクチャを通して顕著な性能を得た。
異種グループSR CNN(HGSRCNN)を,異なるタイプの構造情報を利用して高品質な画像を得る。
論文 参考訳(メタデータ) (2022-09-26T04:14:59Z) - Two-Stream Graph Convolutional Network for Intra-oral Scanner Image
Segmentation [133.02190910009384]
本稿では,2ストリームグラフ畳み込みネットワーク(TSGCN)を提案する。
TSGCNは3次元歯(表面)セグメンテーションにおいて最先端の方法よりも優れています。
論文 参考訳(メタデータ) (2022-04-19T10:41:09Z) - Deep neural networks-based denoising models for CT imaging and their
efficacy [0.3058685580689604]
我々は,低用量CT画像の総合的な視点から,Deep Neural Networks (DNN) の結果の画質を検討することを目的とする。
我々は、DnCNN、U-Net、Red-Net、GANなどの先進的なDNN記述アーキテクチャのライブラリを構築します。
各ネットワークは、PSNRとSSIMの点で最高のパフォーマンスが得られるように、トレーニングされただけでなくモデル化されている。
論文 参考訳(メタデータ) (2021-11-18T06:18:26Z) - ES-ImageNet: A Million Event-Stream Classification Dataset for Spiking
Neural Networks [12.136368750042688]
我々は,Omnidirectional Discrete Gradient (ODG) と呼ばれる高速かつ効率的なアルゴリズムを提案し,一般的なコンピュータビジョンデータセットであるILSVRC2012をイベントストリーム(ES)バージョンに変換する。
このようにして、ES-ImageNetは、現在、他のニューロモーフィック分類データセットの数十倍の大きさで、ソフトウェアによって完全に生成される。
論文 参考訳(メタデータ) (2021-10-23T12:56:23Z) - Fully Spiking Variational Autoencoder [66.58310094608002]
スパイキングニューラルネットワーク(SNN)は、超高速で超低エネルギー消費のニューロモルフィックデバイス上で動作することができる。
本研究では,SNNを用いた可変オートエンコーダ(VAE)を構築し,画像生成を実現する。
論文 参考訳(メタデータ) (2021-09-26T06:10:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。