論文の概要: Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review
- arxiv url: http://arxiv.org/abs/2406.03478v1
- Date: Wed, 5 Jun 2024 17:32:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 17:12:15.856381
- Title: Convolutional Neural Networks and Vision Transformers for Fashion MNIST Classification: A Literature Review
- Title(参考訳): ファッションMNIST分類のための畳み込みニューラルネットワークと視覚変換器:文献レビュー
- Authors: Sonia Bbouzidi, Ghazala Hcini, Imen Jdey, Fadoua Drira,
- Abstract要約: 画像分類領域における畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の比較分析について検討する。
我々のゴールは、電子商取引業界におけるファッションMNISTデータセットの画像を分類するためのViTとCNNの最も適切なアーキテクチャを決定することです。
- 参考スコア(独自算出の注目度): 1.0937094979510213
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Our review explores the comparative analysis between Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs) in the domain of image classification, with a particular focus on clothing classification within the e-commerce sector. Utilizing the Fashion MNIST dataset, we delve into the unique attributes of CNNs and ViTs. While CNNs have long been the cornerstone of image classification, ViTs introduce an innovative self-attention mechanism enabling nuanced weighting of different input data components. Historically, transformers have primarily been associated with Natural Language Processing (NLP) tasks. Through a comprehensive examination of existing literature, our aim is to unveil the distinctions between ViTs and CNNs in the context of image classification. Our analysis meticulously scrutinizes state-of-the-art methodologies employing both architectures, striving to identify the factors influencing their performance. These factors encompass dataset characteristics, image dimensions, the number of target classes, hardware infrastructure, and the specific architectures along with their respective top results. Our key goal is to determine the most appropriate architecture between ViT and CNN for classifying images in the Fashion MNIST dataset within the e-commerce industry, while taking into account specific conditions and needs. We highlight the importance of combining these two architectures with different forms to enhance overall performance. By uniting these architectures, we can take advantage of their unique strengths, which may lead to more precise and reliable models for e-commerce applications. CNNs are skilled at recognizing local patterns, while ViTs are effective at grasping overall context, making their combination a promising strategy for boosting image classification performance.
- Abstract(参考訳): 本稿では、画像分類分野における畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の比較分析について検討する。
Fashion MNISTデータセットを使用して、CNNとViTのユニークな属性を調べます。
CNNは画像分類の基盤として長い間使われてきたが、ViTは異なる入力データコンポーネントの微妙な重み付けを可能にする革新的な自己認識機構を導入している。
歴史的に、トランスフォーマーは主に自然言語処理(NLP)タスクと関連付けられてきた。
本研究の目的は,既存の文献の総合的な検討を通じて,画像分類の文脈において,VTとCNNの区別を明らかにすることである。
本分析では,両アーキテクチャを応用した最先端の方法論を精査し,その性能に影響を与える要因を同定する。
これらの要因は、データセットの特徴、画像次元、ターゲットクラスの数、ハードウェアインフラストラクチャ、およびそれぞれのトップ結果とともに、特定のアーキテクチャを含む。
我々の主要なゴールは、特定の条件とニーズを考慮して、電子商取引業界内のFashion MNISTデータセットの画像を分類するためのViTとCNNの最も適切なアーキテクチャを決定することです。
全体的なパフォーマンスを高めるために、これらの2つのアーキテクチャと異なる形式を組み合わせることの重要性を強調します。
これらのアーキテクチャを統一することで、独自の強みを生かして、Eコマースアプリケーションのより正確で信頼性の高いモデルを生み出すことができます。
CNNは局所パターンの認識に長けており、ViTは全体のコンテキストの把握に有効であり、それらの組み合わせは画像分類性能を高めるための有望な戦略である。
関連論文リスト
- Deformable Convolution Based Road Scene Semantic Segmentation of Fisheye Images in Autonomous Driving [4.720434481945155]
本研究では,近代的変形可能な畳み込みニューラルネットワーク(DCNN)のセマンティックセグメンテーションタスクへの応用について検討する。
実験では,WoodScapeの魚眼画像データセットを10種類の異なるクラスに分割し,複雑な空間関係を捉えるデフォルマブルネットワークの能力を評価する。
変形可能なCNNの統合によるmIoUスコアの大幅な改善は、魚眼画像に存在する幾何歪みを扱う上での有効性を示す。
論文 参考訳(メタデータ) (2024-07-23T17:02:24Z) - A Comparative Survey of Vision Transformers for Feature Extraction in Texture Analysis [9.687982148528187]
畳み込みニューラルネットワーク(CNN)は現在、最高のテクスチャ分析アプローチの1つである。
視覚変換器(ViT)は、物体認識などのタスクにおいてCNNの性能を上回っている。
この研究は、テクスチャに依存するタスクに移行する際に、事前訓練された様々なViTアーキテクチャを探索する。
論文 参考訳(メタデータ) (2024-06-10T09:48:13Z) - ConViViT -- A Deep Neural Network Combining Convolutions and Factorized
Self-Attention for Human Activity Recognition [3.6321891270689055]
RGBビデオを用いた行動認識のためのハイブリッドアーキテクチャにおいて,CNNとトランスフォーマーの長所を生かした新しい手法を提案する。
我々のアーキテクチャは, HMDB51, UCF101, ETRI-Activity3Dで90.05 %, 99.6%, 95.09%のSOTA結果を得た。
論文 参考訳(メタデータ) (2023-10-22T21:13:43Z) - Rich CNN-Transformer Feature Aggregation Networks for Super-Resolution [50.10987776141901]
近年の視覚変換器と自己注意は,様々なコンピュータビジョンタスクにおいて有望な成果を上げている。
我々は,CNNの局所的特徴とトランスフォーマーが捉えた長距離依存性を活用する,超解像(SR)タスクのための効果的なハイブリッドアーキテクチャを提案する。
提案手法は,多数のベンチマークデータセットから最先端のSR結果を得る。
論文 参考訳(メタデータ) (2022-03-15T06:52:25Z) - A Comprehensive Study of Vision Transformers on Dense Prediction Tasks [10.013443811899466]
畳み込みニューラルネットワーク(CNN)がビジョンタスクの標準選択である。
近年の研究では、オブジェクト検出やセマンティックセグメンテーションといった課題において、視覚変換器(VT)が同等の性能を発揮することが示されている。
このことは、それらの一般化可能性、堅牢性、信頼性、複雑なタスクの特徴を抽出するときにテクスチャバイアスについていくつかの疑問を投げかける。
論文 参考訳(メタデータ) (2022-01-21T13:18:16Z) - Do Vision Transformers See Like Convolutional Neural Networks? [45.69780772718875]
近年の研究では、画像分類タスクにおいて、(Vision) Transformer Model (ViT) が同等またはそれ以上の性能を達成できることが示されている。
畳み込みネットワークのように振る舞うのか、それとも全く異なる視覚表現を学ぶのか?
例えば、ViTはすべての層にわたってより均一な表現を持つ。
論文 参考訳(メタデータ) (2021-08-19T17:27:03Z) - Probing Inter-modality: Visual Parsing with Self-Attention for
Vision-Language Pre-training [139.4566371416662]
Vision-Language Pre-Trainingは、画像とテキストのペアからマルチモーダル表現を学ぶことを目的としている。
CNNは、長距離依存をモデル化する際の局所受容野の弱点により、視覚的関係学習に制限がある。
論文 参考訳(メタデータ) (2021-06-25T08:04:25Z) - Efficient Training of Visual Transformers with Small-Size Datasets [64.60765211331697]
進化的ネットワーク(CNN)に代わるアーキテクチャパラダイムとして、ビジュアルトランスフォーマー(VT)が登場している。
ImageNetでトレーニングされた場合、同等の精度を持つにもかかわらず、より小さなデータセットでのパフォーマンスは、大きく異なる可能性があることを示す。
本稿では,計算オーバーヘッドの少ない画像から追加情報を抽出できる自己教師型タスクを提案する。
論文 参考訳(メタデータ) (2021-06-07T16:14:06Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。