論文の概要: Food Classification using Joint Representation of Visual and Textual
Data
- arxiv url: http://arxiv.org/abs/2308.02562v2
- Date: Wed, 30 Aug 2023 11:47:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-31 16:33:47.983613
- Title: Food Classification using Joint Representation of Visual and Textual
Data
- Title(参考訳): 視覚・テクスチャデータの複合表現を用いた食品分類
- Authors: Prateek Mittal, Puneet Goyal, Joohi Chauhan
- Abstract要約: 画像分類のためのMishアクティベーション機能を備えたEfficientNetの修正版を利用するマルチモーダル分類フレームワークを提案する。
提案手法は,大規模なオープンソースデータセットであるUPMC Food-101を用いて評価した。
- 参考スコア(独自算出の注目度): 45.94375447042821
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food classification is an important task in health care. In this work, we
propose a multimodal classification framework that uses the modified version of
EfficientNet with the Mish activation function for image classification, and
the traditional BERT transformer-based network is used for text classification.
The proposed network and the other state-of-the-art methods are evaluated on a
large open-source dataset, UPMC Food-101. The experimental results show that
the proposed network outperforms the other methods, a significant difference of
11.57% and 6.34% in accuracy is observed for image and text classification,
respectively, when compared with the second-best performing method. We also
compared the performance in terms of accuracy, precision, and recall for text
classification using both machine learning and deep learning-based models. The
comparative analysis from the prediction results of both images and text
demonstrated the efficiency and robustness of the proposed approach.
- Abstract(参考訳): 食品分類は医療において重要な課題である。
本研究では,画像分類にmishアクティベーション関数を付加した efficientnet の修正版を用いたマルチモーダル分類フレームワークを提案し,従来の bert transformer ベースのネットワークをテキスト分類に用いた。
提案手法は,大規模なオープンソースデータセットUPMC Food-101を用いて評価した。
実験の結果,提案手法は他の手法よりも優れており,画像分類では11.57%,テキスト分類では6.34%の精度差が見られた。
また,機械学習モデルとディープラーニングモデルの両方を用いて,テキスト分類における精度,精度,リコール性能の比較を行った。
画像とテキストの予測結果の比較分析により,提案手法の有効性と頑健性が示された。
関連論文リスト
- Self-Supervised Learning in Deep Networks: A Pathway to Robust Few-Shot Classification [0.0]
まず、ラベルのない大量のデータから共通特徴表現を学習できるように、自己スーパービジョンでモデルを事前訓練する。
その後、数ショットのデータセットMini-ImageNetで微調整を行い、限られたデータの下でモデルの精度と一般化能力を改善する。
論文 参考訳(メタデータ) (2024-11-19T01:01:56Z) - Enhancing Instance-Level Image Classification with Set-Level Labels [12.778150812879034]
設定レベルラベルを活用することで、インスタンスレベルの画像分類を強化する新しい手法を提案する。
自然画像データセットと病理画像データセットの2つのカテゴリについて実験を行った。
本アルゴリズムは,病理画像分類ベンチマークにおいて最強の基準値と比較して,分類精度が13%向上した。
論文 参考訳(メタデータ) (2023-11-09T03:17:03Z) - Convolutional autoencoder-based multimodal one-class classification [80.52334952912808]
1クラス分類は、単一のクラスからのデータを用いた学習のアプローチを指す。
マルチモーダルデータに適した深層学習一クラス分類法を提案する。
論文 参考訳(メタデータ) (2023-09-25T12:31:18Z) - A Visual Interpretation-Based Self-Improved Classification System Using
Virtual Adversarial Training [4.722922834127293]
本稿では,仮想対人訓練(VAT)とBERTモデルを組み合わせた視覚的解釈に基づく自己改善型分類モデルを提案する。
具体的には、テキストの感情を分類するための分類器として、微調整のBERTモデルを用いる。
予測された感情分類ラベルは、半教師付き訓練方法によるスパム分類のための別のBERTの入力の一部として使用される。
論文 参考訳(メタデータ) (2023-09-03T15:07:24Z) - Fine-grained Recognition with Learnable Semantic Data Augmentation [68.48892326854494]
きめ細かい画像認識は、長年続くコンピュータビジョンの課題である。
本稿では,識別領域損失問題を軽減するため,特徴レベルのトレーニングデータを多様化することを提案する。
本手法は,いくつかの人気分類ネットワーク上での一般化性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-09-01T11:15:50Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z) - Exploiting the relationship between visual and textual features in
social networks for image classification with zero-shot deep learning [0.0]
本稿では,CLIPニューラルネットワークアーキテクチャの伝達可能な学習能力に基づく分類器アンサンブルを提案する。
本研究は,Placesデータセットのラベルによる画像分類タスクに基づいて,視覚的部分のみを考慮した実験である。
画像に関連付けられたテキストを考えることは、目標に応じて精度を向上させるのに役立つ。
論文 参考訳(メタデータ) (2021-07-08T10:54:59Z) - Revisiting The Evaluation of Class Activation Mapping for
Explainability: A Novel Metric and Experimental Analysis [54.94682858474711]
クラスアクティベーションマッピング(cam)アプローチは、アクティベーションマップの平均を重み付けすることで、効果的な可視化を提供する。
説明マップを定量化するための新しいメトリクスセットを提案し、より効果的な方法を示し、アプローチ間の比較を簡素化します。
論文 参考訳(メタデータ) (2021-04-20T21:34:24Z) - Region Comparison Network for Interpretable Few-shot Image
Classification [97.97902360117368]
新しいクラスのモデルをトレーニングするために、ラベル付きサンプルの限られた数だけを効果的に活用するための画像分類が提案されている。
本研究では,領域比較ネットワーク (RCN) と呼ばれる距離学習に基づく手法を提案する。
また,タスクのレベルからカテゴリへの解釈可能性の一般化も提案する。
論文 参考訳(メタデータ) (2020-09-08T07:29:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。