論文の概要: FMiFood: Multi-modal Contrastive Learning for Food Image Classification
- arxiv url: http://arxiv.org/abs/2408.03922v1
- Date: Wed, 7 Aug 2024 17:29:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 12:35:07.554071
- Title: FMiFood: Multi-modal Contrastive Learning for Food Image Classification
- Title(参考訳): FMiFood:食品画像分類のためのマルチモーダルコントラスト学習
- Authors: Xinyue Pan, Jiangpeng He, Fengqing Zhu,
- Abstract要約: 我々はFMiFoodと呼ばれる新しいマルチモーダル・コントラスト学習フレームワークを導入し、より差別的な特徴を学習する。
具体的には,テキストと画像の埋め込みの類似性マッチングを改善するフレキシブルマッチング手法を提案する。
本手法は,既存の手法と比較してUPMC-101とVFNの両方の性能向上を示す。
- 参考スコア(独自算出の注目度): 8.019925729254178
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Food image classification is the fundamental step in image-based dietary assessment, which aims to estimate participants' nutrient intake from eating occasion images. A common challenge of food images is the intra-class diversity and inter-class similarity, which can significantly hinder classification performance. To address this issue, we introduce a novel multi-modal contrastive learning framework called FMiFood, which learns more discriminative features by integrating additional contextual information, such as food category text descriptions, to enhance classification accuracy. Specifically, we propose a flexible matching technique that improves the similarity matching between text and image embeddings to focus on multiple key information. Furthermore, we incorporate the classification objectives into the framework and explore the use of GPT-4 to enrich the text descriptions and provide more detailed context. Our method demonstrates improved performance on both the UPMC-101 and VFN datasets compared to existing methods.
- Abstract(参考訳): 食事イメージ分類は,食事イメージから栄養摂取量を推定することを目的とした,画像に基づく食事評価の基本的なステップである。
食品画像の一般的な課題は、クラス内の多様性とクラス間の類似性であり、分類性能を著しく損なう可能性がある。
この課題に対処するために,食品カテゴリーのテキスト記述などの付加的な文脈情報を統合することで,より差別的な特徴を学習し,分類精度を向上させる,FMiFoodという新しいマルチモーダルコントラスト学習フレームワークを導入する。
具体的には、テキストと画像の埋め込みの類似性マッチングを改善し、複数のキー情報にフォーカスするフレキシブルマッチング手法を提案する。
さらに、分類対象をフレームワークに組み込んで、GPT-4を用いてテキスト記述を強化し、より詳細なコンテキストを提供する。
本手法は,既存の手法と比較してUPMC-101とVFNの両方の性能向上を示す。
関連論文リスト
- OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Muti-Stage Hierarchical Food Classification [9.013592803864086]
トレーニングプロセス中に食品を反復的にクラスタリングし,マージすることで,食品分類のための多段階階層的枠組みを提案する。
本手法は,VFN栄養データセットを用いて評価し,食品の種類と食品の分類の両面で既存の研究と比較して有望な結果を得た。
論文 参考訳(メタデータ) (2023-09-03T04:45:44Z) - Food Classification using Joint Representation of Visual and Textual
Data [45.94375447042821]
画像分類のためのMishアクティベーション機能を備えたEfficientNetの修正版を利用するマルチモーダル分類フレームワークを提案する。
提案手法は,大規模なオープンソースデータセットであるUPMC Food-101を用いて評価した。
論文 参考訳(メタデータ) (2023-08-03T04:03:46Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - EAML: Ensemble Self-Attention-based Mutual Learning Network for Document
Image Classification [1.1470070927586016]
我々は、アンサンブルトレーニング可能なネットワークのブロックとして機能する自己アテンションベースの融合モジュールを設計する。
トレーニング段階を通して、画像とテキストの区別された特徴を同時に学習することができる。
文書画像分類を行うための自己注意に基づく融合モジュールとともに、相互学習アプローチを活用するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-11T16:05:03Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - Improving Dietary Assessment Via Integrated Hierarchy Food
Classification [7.398060062678395]
本稿では,複数のドメインからの情報を統合することにより,予測の質を向上させるための新しい食品分類フレームワークを提案する。
本手法は, 改良VIPER-FoodNet (VFN) 食品画像データセットに対して, 関連するエネルギーと栄養情報を含むことにより検証した。
論文 参考訳(メタデータ) (2021-09-06T20:59:58Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。