論文の概要: FoodMem: Near Real-time and Precise Food Video Segmentation
- arxiv url: http://arxiv.org/abs/2407.12121v1
- Date: Tue, 16 Jul 2024 19:15:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 19:18:21.826517
- Title: FoodMem: Near Real-time and Precise Food Video Segmentation
- Title(参考訳): FoodMem:リアルタイムと精密なフードビデオセグメンテーション
- Authors: Ahmad AlMughrabi, Adrián Galán, Ricardo Marques, Petia Radeva,
- Abstract要約: 現在の制限は、不正確な栄養分析、非効率な作物管理、最適な食品加工に繋がる。
本研究では,高品質でほぼリアルタイムなセグメンテーションとビデオ中の食品の追跡のための堅牢なフレームワークの開発を紹介する。
私たちは、360度シーンのビデオシーケンスから食品を分割する新しいフレームワーク、FoodMemを紹介します。
- 参考スコア(独自算出の注目度): 4.282795945742752
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Food segmentation, including in videos, is vital for addressing real-world health, agriculture, and food biotechnology issues. Current limitations lead to inaccurate nutritional analysis, inefficient crop management, and suboptimal food processing, impacting food security and public health. Improving segmentation techniques can enhance dietary assessments, agricultural productivity, and the food production process. This study introduces the development of a robust framework for high-quality, near-real-time segmentation and tracking of food items in videos, using minimal hardware resources. We present FoodMem, a novel framework designed to segment food items from video sequences of 360-degree unbounded scenes. FoodMem can consistently generate masks of food portions in a video sequence, overcoming the limitations of existing semantic segmentation models, such as flickering and prohibitive inference speeds in video processing contexts. To address these issues, FoodMem leverages a two-phase solution: a transformer segmentation phase to create initial segmentation masks and a memory-based tracking phase to monitor food masks in complex scenes. Our framework outperforms current state-of-the-art food segmentation models, yielding superior performance across various conditions, such as camera angles, lighting, reflections, scene complexity, and food diversity. This results in reduced segmentation noise, elimination of artifacts, and completion of missing segments. Here, we also introduce a new annotated food dataset encompassing challenging scenarios absent in previous benchmarks. Extensive experiments conducted on Nutrition5k and Vegetables & Fruits datasets demonstrate that FoodMem enhances the state-of-the-art by 2.5% mean average precision in food video segmentation and is 58 x faster on average.
- Abstract(参考訳): ビデオを含む食品のセグメンテーションは、現実世界の健康、農業、食品バイオテクノロジーの問題に対処するために不可欠である。
現在の制限は、不正確な栄養分析、非効率な作物管理、最適な食品加工につながり、食料安全保障と公衆衛生に影響を及ぼす。
セグメンテーション技術の改善は、食物アセスメント、農業生産性、および食品生産プロセスを向上させることができる。
本研究では、最小限のハードウェアリソースを用いて、高品質でほぼリアルタイムなセグメンテーションとビデオ内の食品の追跡のための堅牢なフレームワークの開発を紹介する。
私たちは、360度無境界シーンのビデオシーケンスから食品を分割する新しいフレームワーク、FoodMemを紹介します。
FoodMemは、ビデオ処理コンテキストにおけるフリッカリングや禁止推論速度といった、既存のセマンティックセグメンテーションモデルの制限を克服して、ビデオシーケンス内の食品部分のマスクを一貫して生成することができる。
これらの問題に対処するため、FoodMemは、トランスフォーマーセグメンテーションフェーズを使用して、初期セグメンテーションマスクと、複雑なシーンにおけるフードマスクを監視するメモリベースのトラッキングフェーズを生成する。
われわれのフレームワークは、現在の最先端食品セグメンテーションモデルより優れており、カメラアングル、照明、反射、シーンの複雑さ、食品の多様性など、様々な条件で優れたパフォーマンスが得られる。
これにより、セグメンテーションノイズの低減、アーティファクトの除去、欠落セグメントの完成が実現される。
ここでは、以前のベンチマークにない挑戦的なシナリオを含む、新しい注釈付き食品データセットについても紹介する。
Nutrition5k と Vegetables & Fruits のデータセットで実施された大規模な実験は、FoodMem が食品ビデオのセグメンテーションにおける平均精度を2.5%向上し、平均で58倍高速であることを示した。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - How Much You Ate? Food Portion Estimation on Spoons [63.611551981684244]
現在の画像に基づく食品部分推定アルゴリズムは、ユーザが食事の画像を1、2回取ることを前提としている。
本稿では,静止型ユーザ向けカメラを用いて,機器上の食品の追跡を行う革新的なソリューションを提案する。
本システムは,スープやシチューなどの液状固形不均一混合物の栄養含量の推定に信頼性が高い。
論文 参考訳(メタデータ) (2024-05-12T00:16:02Z) - OVFoodSeg: Elevating Open-Vocabulary Food Image Segmentation via Image-Informed Textual Representation [43.65207396061584]
OVFoodSegは、ビジュアルコンテキストによるテキスト埋め込みを強化するフレームワークである。
OVFoodSegのトレーニングプロセスは、FoodLearnerの事前トレーニングと、セグメンテーションのためのその後の学習フェーズの2つの段階に分けられる。
以前のモデルの欠陥に対処することで、OVFoodSegは大幅な改善を示し、FoodSeg103データセット上での平均的インターセクション(mIoU)を4.9%増加させた。
論文 参考訳(メタデータ) (2024-04-01T18:26:29Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - FoodSAM: Any Food Segmentation [10.467966270491228]
本稿では,SAM生成マスクにおけるクラス固有の情報の欠如に対処する新しいフレームワークであるFoodSAMを提案する。
FoodSAMは、粗いセマンティックマスクとSAM生成マスクを統合し、セマンティックセマンティクスの品質を高める。
FoodSAMは、食品画像の例、パノプティクス、即時セグメンテーションを達成するための最初の作業である。
論文 参考訳(メタデータ) (2023-08-11T04:42:10Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z) - An End-to-End Food Image Analysis System [8.622335099019214]
食品の局所化, 分類, 部分サイズ推定を統合した画像に基づく食品分析フレームワークを提案する。
提案するフレームワークはエンドツーエンドであり,複数の食品を含む任意の食品画像として入力することができる。
本研究の枠組みは,栄養摂食調査から収集した実生活食品画像データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-02-01T05:36:20Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。