論文の概要: Comparative Analysis of Deep Learning Models for Brand Logo
Classification in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2305.12242v1
- Date: Sat, 20 May 2023 17:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:40:06.274546
- Title: Comparative Analysis of Deep Learning Models for Brand Logo
Classification in Real-World Scenarios
- Title(参考訳): 実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルの比較分析
- Authors: Qimao Yang, Huili Chen, Qiwei Dong
- Abstract要約: 本報告では,ブランドロゴ分類のためのディープラーニングモデルについて,実世界のシナリオで総合的に検討する。
データセットには10の有名ブランドのロゴの3,717枚のラベルが付けられている。
ViTモデルであるDaViTは99.60%の精度を達成し、DenseNet29は366.62 FPSの速度を達成した。
- 参考スコア(独自算出の注目度): 4.556735890128172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents a comprehensive study on deep learning models for brand
logo classification in real-world scenarios. The dataset contains 3,717 labeled
images of logos from ten prominent brands. Two types of models, Convolutional
Neural Networks (CNN) and Vision Transformer (ViT), were evaluated for their
performance. The ViT model, DaViT small, achieved the highest accuracy of
99.60%, while the DenseNet29 achieved the fastest inference speed of 366.62
FPS. The findings suggest that the DaViT model is a suitable choice for offline
applications due to its superior accuracy. This study demonstrates the
practical application of deep learning in brand logo classification tasks.
- Abstract(参考訳): 本報告は,実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルに関する包括的研究である。
データセットには、10の著名なブランドのロゴのラベル付き画像が3,717枚含まれている。
畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の2種類のモデルの性能評価を行った。
ViTモデルであるDaViTは99.60%の精度を達成し、DenseNet29は366.62 FPSの速度を達成した。
この結果から,DaViTモデルはオフラインアプリケーションに適した選択である可能性が示唆された。
本研究は,ブランドロゴ分類タスクにおける深層学習の実践的応用を実証する。
関連論文リスト
- Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Comparative Performance Analysis of Transformer-Based Pre-Trained Models for Detecting Keratoconus Disease [0.0]
本研究は、変性眼疾患である角膜症(keratoconus)の診断のために、訓練済みの8つのCNNを比較した。
MobileNetV2は角膜と正常な症例を誤分類の少ない場合に最も正確なモデルであった。
論文 参考訳(メタデータ) (2024-08-16T20:15:24Z) - Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文 参考訳(メタデータ) (2024-06-13T17:59:56Z) - Evaluating the Reliability of CNN Models on Classifying Traffic and Road
Signs using LIME [1.188383832081829]
本研究は,これらのモデルの予測精度と,画像分類に適切な特徴を利用する能力を評価することに焦点を当てた。
モデル予測の強みと限界に関する洞察を得るために、この研究は局所的解釈可能なモデルに依存しない説明(LIME)フレームワークを用いている。
論文 参考訳(メタデータ) (2023-09-11T18:11:38Z) - Automating Style Analysis and Visualization With Explainable AI -- Case
Studies on Brand Recognition [0.4297070083645048]
本稿では,ブランド関連機能の発見を完全に自動化するAI駆動手法を提案する。
提案手法では,ベクトルグラフィックスの分類と解析を行う2層ブランド識別グラフニューラルネットワーク(GNN)BIGNetを導入する。
最初のケーススタディでは、BIGNetは電話ブランドを分類するだけでなく、複数のスケールでブランド関連の機能をキャプチャする。
論文 参考訳(メタデータ) (2023-06-05T16:38:11Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Efficient Automatic Machine Learning via Design Graphs [72.85976749396745]
最適なモデル設計を探索する効率的なサンプルベース手法であるFALCONを提案する。
FALCONは,1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール,2)既知のモデル性能情報のラベル伝搬を行うタスク固有モジュールを特徴とする。
FALCONは,30個の探索ノードのみを用いて,各タスクに対して良好な性能を持つ設計を効率的に得ることを実証的に示す。
論文 参考訳(メタデータ) (2022-10-21T21:25:59Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。