論文の概要: A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification
- arxiv url: http://arxiv.org/abs/2402.00564v5
- Date: Thu, 20 Jun 2024 13:45:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 05:38:47.881925
- Title: A Single Graph Convolution Is All You Need: Efficient Grayscale Image Classification
- Title(参考訳): グラフの1つの畳み込み:効率的なグレイスケール画像分類
- Authors: Jacob Fein-Ashley, Tian Ye, Sachini Wickramasinghe, Bingyi Zhang, Rajgopal Kannan, Viktor Prasanna,
- Abstract要約: 画像のベクトル化ビューを用いた新しいグレースケール画像分類手法を提案する。
単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。
ベンチマークグレースケール画像データセットによる実験結果から,提案モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 7.836542522224975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image classifiers often rely on convolutional neural networks (CNN) for their tasks, which, for image classification, experience high latency due to the number of operations they perform, which can be problematic in real-time applications. Additionally, many image classification models work on both RGB and grayscale datasets. Classifiers that operate solely on grayscale images are much less common. Grayscale image classification has diverse applications, including but not limited to medical image classification and synthetic aperture radar (SAR) automatic target recognition (ATR). Thus, we present a novel grayscale image classification approach using a vectorized view of images. We exploit the lightweightness of MLPs by viewing images as vectors and reducing our problem setting to the grayscale image classification setting. We find that using a single graph convolutional layer batch-wise increases accuracy and reduces variance in the performance of our model. Moreover, we develop a customized accelerator on FPGA for the proposed model with several optimizations to improve its performance. Our experimental results on benchmark grayscale image datasets demonstrate the effectiveness of the proposed model, achieving vastly lower latency (up to 16$\times$ less) and competitive or leading performance compared to other state-of-the-art image classification models on various domain-specific grayscale image classification datasets.
- Abstract(参考訳): 画像分類器は、タスクに畳み込みニューラルネットワーク(CNN)を頼りにしており、画像分類では、実行する操作の数によってレイテンシが高く、リアルタイムアプリケーションでは問題となる可能性がある。
さらに、多くの画像分類モデルはRGBとグレースケールの両方のデータセットで動作する。
グレースケールの画像のみを扱う分類器は、あまり一般的ではない。
グレースケール画像分類には様々な応用があり、医療画像分類や合成開口レーダ(SAR)自動目標認識(ATR)に限らない。
そこで本稿では,画像のベクトル化ビューを用いた新しいグレースケール画像分類手法を提案する。
我々は,画像をベクトルとして見ることで,MLPの軽量性を生かし,グレースケール画像分類設定への問題設定を減らした。
単一グラフ畳み込み層を用いることで精度が向上し,モデルの性能のばらつきが軽減されることがわかった。
さらに,FPGA モデルに最適化したアクセラレータを開発し,性能向上のための最適化を行った。
ベンチマークグレースケール画像データセットを用いた実験結果から,提案モデルの有効性を実証し,各領域固有のグレースケール画像分類データセットの他の最先端画像分類モデルと比較して,レイテンシが大幅に低く(最大16$\times以下),競合的,あるいは先行的な性能を実現した。
関連論文リスト
- Image-GS: Content-Adaptive Image Representation via 2D Gaussians [55.15950594752051]
本稿では,コンテンツ適応型画像表現であるImage-GSを提案する。
異方性2Dガウスアンをベースとして、Image-GSは高いメモリ効率を示し、高速なランダムアクセスをサポートし、自然なレベルのディテールスタックを提供する。
画像-GSの一般的な効率性と忠実性は、最近のニューラルイメージ表現と業界標準テクスチャ圧縮機に対して検証される。
この研究は、機械認識、アセットストリーミング、コンテンツ生成など、適応的な品質とリソース制御を必要とする新しいアプリケーションを開発するための洞察を与えてくれることを願っている。
論文 参考訳(メタデータ) (2024-07-02T00:45:21Z) - RATLIP: Generative Adversarial CLIP Text-to-Image Synthesis Based on Recurrent Affine Transformations [0.0]
条件付きアフィン変換(CAT)は、画像中のコンテンツ合成を制御するために、GANの異なる層に適用されている。
まず、各レイヤがグローバル情報にアクセスできるようにするために、CATとRAT(Recurrent Neural Network)をモデル化する。
次に、リカレントニューラルネットワークにおける情報忘れの特性を軽減するために、RAT間のシャッフルアテンションを導入する。
論文 参考訳(メタデータ) (2024-05-13T18:49:18Z) - Additional Look into GAN-based Augmentation for Deep Learning COVID-19
Image Classification [57.1795052451257]
我々は,GANに基づく拡張性能のデータセットサイズ依存性について,小サンプルに着目して検討した。
両方のセットでStyleGAN2-ADAをトレーニングし、生成した画像の品質を検証した後、マルチクラス分類問題における拡張アプローチの1つとしてトレーニングされたGANを使用する。
GANベースの拡張アプローチは、中規模および大規模データセットでは古典的な拡張に匹敵するが、より小さなデータセットでは不十分である。
論文 参考訳(メタデータ) (2024-01-26T08:28:13Z) - Grid Jigsaw Representation with CLIP: A New Perspective on Image
Clustering [37.15595383168132]
GJR(Grid Jigsaw Representation)と呼ばれる、画像クラスタリングのためのJigsawベースの戦略手法。
GJRモジュールは、さまざまな深層畳み込みネットワークに付加され、幅広いベンチマークデータセットで大幅に改善された。
実験の結果,ACC,NMI,ARIの3つの指標と超高速収束速度に対するクラスタリング作業の有効性が示された。
論文 参考訳(メタデータ) (2023-10-27T03:07:05Z) - Adaptive Input-image Normalization for Solving the Mode Collapse Problem in GAN-based X-ray Images [0.08192907805418582]
この研究は、適応入力-画像正規化をDeep Conversaal GANとAuxiliary GANと統合してモード崩壊問題を緩和する利点の実証的な実証に寄与する。
その結果, 適応入出力正規化によるDCGANとACGANは, 非正規化X線画像でDCGANとACGANより優れていた。
論文 参考訳(メタデータ) (2023-09-21T16:43:29Z) - Performance of GAN-based augmentation for deep learning COVID-19 image
classification [57.1795052451257]
ディープラーニングを医療分野に適用する上で最大の課題は、トレーニングデータの提供である。
データ拡張は、限られたデータセットに直面した時に機械学習で使用される典型的な方法論である。
本研究は, 新型コロナウイルスの胸部X線画像セットを限定して, StyleGAN2-ADAモデルを用いて訓練するものである。
論文 参考訳(メタデータ) (2023-04-18T15:39:58Z) - A novel approach for glaucoma classification by wavelet neural networks
using graph-based, statisitcal features of qualitatively improved images [0.0]
我々は、最適な拡張網膜画像特徴にウェーブレットニューラルネットワーク(WNN)を用いた新しい緑内障分類手法を提案する。
WNN分類器の性能は、様々なデータセットを持つ多層パーセプトロンニューラルネットワークと比較される。
論文 参考訳(メタデータ) (2022-06-24T06:19:30Z) - Learning Hierarchical Graph Representation for Image Manipulation
Detection [50.04902159383709]
画像操作検出の目的は、画像内の操作された領域を特定し、特定することである。
最近のアプローチでは、画像に残っている改ざんするアーティファクトをキャプチャするために、洗練された畳み込みニューラルネットワーク(CNN)が採用されている。
本稿では2つの並列分岐からなる階層型グラフ畳み込みネットワーク(HGCN-Net)を提案する。
論文 参考訳(メタデータ) (2022-01-15T01:54:25Z) - Scalable Visual Transformers with Hierarchical Pooling [61.05787583247392]
本稿では,視覚的トークンを徐々にプールしてシーケンス長を縮小する階層的ビジュアルトランスフォーマ(hvt)を提案する。
計算の複雑さを増すことなく、深さ/幅/解像度/パッチサイズの寸法をスケールすることで、大きなメリットをもたらします。
当社のHVTはImageNetとCIFAR-100データセットの競合ベースラインを上回っています。
論文 参考訳(メタデータ) (2021-03-19T03:55:58Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。