論文の概要: A Novel Method for Accurate & Real-time Food Classification: The Synergistic Integration of EfficientNetB7, CBAM, Transfer Learning, and Data Augmentation
- arxiv url: http://arxiv.org/abs/2410.02304v1
- Date: Thu, 3 Oct 2024 08:39:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-04 04:00:02.754635
- Title: A Novel Method for Accurate & Real-time Food Classification: The Synergistic Integration of EfficientNetB7, CBAM, Transfer Learning, and Data Augmentation
- Title(参考訳): 高精度リアルタイム食品分類のための新しい手法:効率的なNetB7,CBAM,トランスファーラーニング,データ拡張の相乗的統合
- Authors: Shayan Rokhva, Babak Teimourpour,
- Abstract要約: 本研究では,伝達学習,データ拡張,CBAMアテンションモジュールによって強化された最先端のEfficientNetB7アーキテクチャを用いる。
提案手法は,様々な深層学習手法を駆使して,96.40%の精度で一貫した平均精度を実現している。
特に、未確認データの推測中に1秒以内に60枚以上の画像を分類することができ、高い精度を迅速に提供できることを実証することができる。
- 参考スコア(独自算出の注目度): 1.864621482724548
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Integrating artificial intelligence into modern society is profoundly transformative, significantly enhancing productivity by streamlining various daily tasks. AI-driven recognition systems provide notable advantages in the food sector, including improved nutrient tracking, tackling food waste, and boosting food production and consumption efficiency. Accurate food classification is a crucial initial step in utilizing advanced AI models, as the effectiveness of this process directly influences the success of subsequent operations; therefore, achieving high accuracy at a reasonable speed is essential. Despite existing research efforts, a gap persists in improving performance while ensuring rapid processing times, prompting researchers to pursue cost-effective and precise models. This study addresses this gap by employing the state-of-the-art EfficientNetB7 architecture, enhanced through transfer learning, data augmentation, and the CBAM attention module. This methodology results in a robust model that surpasses previous studies in accuracy while maintaining rapid processing suitable for real-world applications. The Food11 dataset from Kaggle was utilized, comprising 16643 imbalanced images across 11 diverse classes with significant intra-category diversities and inter-category similarities. Furthermore, the proposed methodology, bolstered by various deep learning techniques, consistently achieves an impressive average accuracy of 96.40%. Notably, it can classify over 60 images within one second during inference on unseen data, demonstrating its ability to deliver high accuracy promptly. This underscores its potential for practical applications in accurate food classification and enhancing efficiency in subsequent processes.
- Abstract(参考訳): 現代の社会に人工知能を統合することは、非常に変革的であり、様々な日々のタスクを合理化することによって生産性を著しく向上させる。
AIによる認識システムは、栄養管理の改善、食品廃棄物の処理、食品生産と消費効率の向上など、食品セクターにおいて顕著な優位性を提供する。
食品の正確な分類は、このプロセスの有効性がその後の作業の成功に直接影響を与えるため、高度なAIモデルを活用するための重要な初期ステップである。
既存の研究努力にもかかわらず、そのギャップは高速な処理時間を確保しながら性能の向上を継続し、研究者はコスト効率と正確なモデルを追求する。
本研究では、このギャップを最先端のEfficientNetB7アーキテクチャを用いて解決し、転送学習、データ拡張、CBAMアテンションモジュールによって強化する。
この手法は、現実のアプリケーションに適した高速処理を維持しつつ、従来の精度の研究を超越した堅牢なモデルをもたらす。
KaggleのFood11データセットは、16643枚の不均衡な画像を11のクラスに分けて利用した。
さらに,様々な深層学習手法を駆使した提案手法は,96.40%の精度で一貫した平均精度を実現している。
特に、未確認データの推測中に1秒以内に60枚以上の画像を分類することができ、高い精度を迅速に提供できることを実証することができる。
このことは、食品の正確な分類とその後のプロセスにおける効率向上の実践的応用の可能性を浮き彫りにした。
関連論文リスト
- KBAlign: Efficient Self Adaptation on Specific Knowledge Bases [75.78948575957081]
大規模言語モデル(LLM)は通常、知識材料を瞬時に活用するために、検索強化世代に依存している。
本稿では,知識ベースを含む下流タスクへの効率的な適応を目的としたKBAlignを提案する。
提案手法は,Q&Aペアやリビジョン提案などの自己注釈付きデータを用いて反復学習を行い,モデルが知識内容を効率的に把握できるようにする。
論文 参考訳(メタデータ) (2024-11-22T08:21:03Z) - iFuzzyTL: Interpretable Fuzzy Transfer Learning for SSVEP BCI System [24.898026682692688]
本研究では,解釈可能なファジィ変換学習(iFuzzyTL)を利用した高度な分類手法について検討する。
iFuzzyTLは、ファジィ推論システムとアテンション機構を統合することで、人間の解釈可能な形式で入力信号処理と分類を洗練する。
モデルの有効性は3つのデータセットで示される。
論文 参考訳(メタデータ) (2024-10-16T06:07:23Z) - Efficient Human Pose Estimation: Leveraging Advanced Techniques with MediaPipe [5.439359582541082]
本研究では,MediaPipeフレームワークを用いた人間のポーズ推定の大幅な向上について述べる。
この研究は精度、計算効率、リアルタイム処理能力の改善に焦点を当てている。
この進歩は、拡張現実、スポーツ分析、ヘルスケアに幅広く応用されている。
論文 参考訳(メタデータ) (2024-06-21T21:00:45Z) - Computer Vision in the Food Industry: Accurate, Real-time, and Automatic Food Recognition with Pretrained MobileNetV2 [1.6590638305972631]
本研究は,16643画像からなる公共食品11データセット上での食品認識において,効率的かつ高速な事前訓練されたMobileNetV2モデルを用いる。
また、データセット理解、転送学習、データ拡張、正規化、動的学習率、ハイパーパラメータチューニング、さまざまなサイズの画像の考慮など、さまざまな技術を活用して、パフォーマンスと堅牢性を高めている。
より単純な構造を持ち、深層学習領域の深部・密度モデルと比較して訓練可能なパラメータが少ない光モデルを採用するが、短時間で計算可能な精度を達成した。
論文 参考訳(メタデータ) (2024-05-19T17:20:20Z) - Incremental Self-training for Semi-supervised Learning [56.57057576885672]
ISTは単純だが有効であり、既存の自己学習に基づく半教師あり学習手法に適合する。
提案したISTを5つのデータセットと2種類のバックボーンで検証し,認識精度と学習速度を効果的に向上させる。
論文 参考訳(メタデータ) (2024-04-14T05:02:00Z) - Accelerating Neural Network Training: A Brief Review [0.5825410941577593]
本研究では,ディープニューラルネットワーク(DNN)の学習過程を高速化するための革新的なアプローチについて検討する。
この研究は、グラディエント累積(GA)、自動混合精度(AMP)、ピンメモリ(PM)などの高度な手法を利用する。
論文 参考訳(メタデータ) (2023-12-15T18:43:45Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - Automatic Data Augmentation via Invariance-Constrained Learning [94.27081585149836]
下位のデータ構造は、しばしば学習タスクのソリューションを改善するために利用される。
データ拡張は、入力データに複数の変換を適用することで、トレーニング中にこれらの対称性を誘導する。
この作業は、学習タスクを解決しながらデータ拡張を自動的に適応することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2022-09-29T18:11:01Z) - Efficient Few-Shot Object Detection via Knowledge Inheritance [62.36414544915032]
Few-shot Object Detection (FSOD) は、未確認のタスクに少ないトレーニングサンプルで適応できるジェネリック検出器を学習することを目的としている。
計算量の増加を伴わない効率的なプレトレイン・トランスファー・フレームワーク(PTF)のベースラインを提案する。
また,予測された新しいウェイトと事前訓練されたベースウェイトとのベクトル長の不整合を軽減するために,適応長再スケーリング(ALR)戦略を提案する。
論文 参考訳(メタデータ) (2022-03-23T06:24:31Z) - BERT WEAVER: Using WEight AVERaging to enable lifelong learning for
transformer-based models in biomedical semantic search engines [49.75878234192369]
We present WEAVER, a simple, yet efficient post-processing method that infuse old knowledge into the new model。
WEAVERを逐次的に適用すると、同じ単語の埋め込み分布が、一度にすべてのデータに対する総合的なトレーニングとして得られることを示す。
論文 参考訳(メタデータ) (2022-02-21T10:34:41Z) - Domain Adaptive Robotic Gesture Recognition with Unsupervised
Kinematic-Visual Data Alignment [60.31418655784291]
本稿では,マルチモダリティ知識,すなわちキネマティックデータとビジュアルデータを同時にシミュレータから実ロボットに伝達できる,教師なしドメイン適応フレームワークを提案する。
ビデオの時間的手がかりと、ジェスチャー認識に対するマルチモーダル固有の相関を用いて、トランスファー可能な機能を強化したドメインギャップを修復する。
その結果, 本手法は, ACCでは最大12.91%, F1scoreでは20.16%と, 実際のロボットではアノテーションを使わずに性能を回復する。
論文 参考訳(メタデータ) (2021-03-06T09:10:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。