論文の概要: Comparative Analysis of Deep Learning Models for Brand Logo
Classification in Real-World Scenarios
- arxiv url: http://arxiv.org/abs/2305.12242v1
- Date: Sat, 20 May 2023 17:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-23 23:40:06.274546
- Title: Comparative Analysis of Deep Learning Models for Brand Logo
Classification in Real-World Scenarios
- Title(参考訳): 実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルの比較分析
- Authors: Qimao Yang, Huili Chen, Qiwei Dong
- Abstract要約: 本報告では,ブランドロゴ分類のためのディープラーニングモデルについて,実世界のシナリオで総合的に検討する。
データセットには10の有名ブランドのロゴの3,717枚のラベルが付けられている。
ViTモデルであるDaViTは99.60%の精度を達成し、DenseNet29は366.62 FPSの速度を達成した。
- 参考スコア(独自算出の注目度): 4.556735890128172
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This report presents a comprehensive study on deep learning models for brand
logo classification in real-world scenarios. The dataset contains 3,717 labeled
images of logos from ten prominent brands. Two types of models, Convolutional
Neural Networks (CNN) and Vision Transformer (ViT), were evaluated for their
performance. The ViT model, DaViT small, achieved the highest accuracy of
99.60%, while the DenseNet29 achieved the fastest inference speed of 366.62
FPS. The findings suggest that the DaViT model is a suitable choice for offline
applications due to its superior accuracy. This study demonstrates the
practical application of deep learning in brand logo classification tasks.
- Abstract(参考訳): 本報告は,実世界シナリオにおけるブランドロゴ分類のためのディープラーニングモデルに関する包括的研究である。
データセットには、10の著名なブランドのロゴのラベル付き画像が3,717枚含まれている。
畳み込みニューラルネットワーク(CNN)と視覚変換器(ViT)の2種類のモデルの性能評価を行った。
ViTモデルであるDaViTは99.60%の精度を達成し、DenseNet29は366.62 FPSの速度を達成した。
この結果から,DaViTモデルはオフラインアプリケーションに適した選択である可能性が示唆された。
本研究は,ブランドロゴ分類タスクにおける深層学習の実践的応用を実証する。
関連論文リスト
- Offline Handwriting Signature Verification: A Transfer Learning and
Feature Selection Approach [4.395397502990339]
目的は、提供された手書き署名の真偽を確認し、真偽と偽造された署名を区別することである。
この問題には金融、法的文書、セキュリティなど多くの分野の応用がある。
我々は、420人の個人から12600枚の画像の大規模なデータセットを収集し、それぞれが特定の種類の署名を30個持っている。
その後の段階では、MobileNetV2というディープラーニングモデルを用いて、各画像から最高の特徴を抽出した。
論文 参考訳(メタデータ) (2024-01-05T10:55:20Z) - Evaluating the Reliability of CNN Models on Classifying Traffic and Road
Signs using LIME [1.188383832081829]
本研究は,これらのモデルの予測精度と,画像分類に適切な特徴を利用する能力を評価することに焦点を当てた。
モデル予測の強みと限界に関する洞察を得るために、この研究は局所的解釈可能なモデルに依存しない説明(LIME)フレームワークを用いている。
論文 参考訳(メタデータ) (2023-09-11T18:11:38Z) - Automating Style Analysis and Visualization With Explainable AI -- Case
Studies on Brand Recognition [0.4297070083645048]
本稿では,ブランド関連機能の発見を完全に自動化するAI駆動手法を提案する。
提案手法では,ベクトルグラフィックスの分類と解析を行う2層ブランド識別グラフニューラルネットワーク(GNN)BIGNetを導入する。
最初のケーススタディでは、BIGNetは電話ブランドを分類するだけでなく、複数のスケールでブランド関連の機能をキャプチャする。
論文 参考訳(メタデータ) (2023-06-05T16:38:11Z) - DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。
我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。
結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文 参考訳(メタデータ) (2023-03-31T17:47:23Z) - A Light-weight Deep Learning Model for Remote Sensing Image
Classification [70.66164876551674]
リモートセンシング画像分類(RSIC)のための高性能で軽量なディープラーニングモデルを提案する。
NWPU-RESISC45ベンチマークで広範な実験を行うことで、提案した教師学生モデルは最先端システムより優れている。
論文 参考訳(メタデータ) (2023-02-25T09:02:01Z) - ConvNeXt V2: Co-designing and Scaling ConvNets with Masked Autoencoders [104.05133094625137]
完全畳み込み型マスク付きオートエンコーダフレームワークと,新たなグローバル応答正規化層を提案する。
この自己教師付き学習技術とアーキテクチャ改善の共設計により、純粋なConvNetの性能を大幅に向上させるConvNeXt V2と呼ばれる新しいモデルファミリが生まれる。
論文 参考訳(メタデータ) (2023-01-02T18:59:31Z) - Efficient Automatic Machine Learning via Design Graphs [72.85976749396745]
最適なモデル設計を探索する効率的なサンプルベース手法であるFALCONを提案する。
FALCONは,1)グラフニューラルネットワーク(GNN)を介してデザイングラフ上でメッセージパッシングを行うタスク非依存モジュール,2)既知のモデル性能情報のラベル伝搬を行うタスク固有モジュールを特徴とする。
FALCONは,30個の探索ノードのみを用いて,各タスクに対して良好な性能を持つ設計を効率的に得ることを実証的に示す。
論文 参考訳(メタデータ) (2022-10-21T21:25:59Z) - Data-Free Adversarial Knowledge Distillation for Graph Neural Networks [62.71646916191515]
グラフ構造化データ(DFAD-GNN)を用いたデータフリー逆知識蒸留のための第1のエンドツーエンドフレームワークを提案する。
具体的には、DFAD-GNNは、教師モデルと学生モデルとを2つの識別器とみなし、教師モデルから学生モデルに知識を抽出するために学習グラフを導出するジェネレータという、主に3つの成分からなる生成的対向ネットワークを採用している。
我々のDFAD-GNNは、グラフ分類タスクにおける最先端のデータフリーベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2022-05-08T08:19:40Z) - Empirical evaluation of shallow and deep learning classifiers for Arabic
sentiment analysis [1.1172382217477126]
本研究は、アラビア語レビューの感情分析のためのディープラーニングモデルの性能を詳細に比較したものである。
この研究で使用されるデータセットは、アラビア語のホテルと本レビューデータセットである。
その結果,2次・複数ラベル分類では深層学習が浅層学習より優れており,文献で報告された同様の研究結果とは対照的であった。
論文 参考訳(メタデータ) (2021-12-01T14:45:43Z) - What Stops Learning-based 3D Registration from Working in the Real
World? [53.68326201131434]
この研究は、3Dポイントのクラウド登録失敗の原因を特定し、その原因を分析し、解決策を提案する。
最終的に、これは最も実践的な3D登録ネットワーク(BPNet)に変換される。
我々のモデルは微調整をせずに実データに一般化し、商用センサで得られた見えない物体の点雲上で最大67%の精度に達する。
論文 参考訳(メタデータ) (2021-11-19T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。