論文の概要: BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation
- arxiv url: http://arxiv.org/abs/2601.07581v2
- Date: Sun, 18 Jan 2026 11:08:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 14:05:44.997682
- Title: BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation
- Title(参考訳): BenchSeg:マルチビューフードビデオセグメンテーションのための大規模データセットとベンチマーク
- Authors: Ahmad AlMughrabi, Guillermo Rivo, Carlos Jiménez-Farfán, Umair Haroon, Farid Al-Areqi, Hyunjun Jung, Benjamin Busam, Ricardo Marques, Petia Radeva,
- Abstract要約: 我々は、新しいマルチビューフードビデオセグメンテーションデータセットとベンチマークであるBenchSegを紹介する。
BenchSegは55の料理シーンを25,284の微妙な注釈付きフレームで集約し、各料理を360度カメラで撮影する。
既存のFoodSeg103データセット上で20種類の最先端セグメンテーションモデルを評価し,BenchSeg上で評価する。
- 参考スコア(独自算出の注目度): 25.750204283738054
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Food image segmentation is a critical task for dietary analysis, enabling accurate estimation of food volume and nutrients. However, current methods suffer from limited multi-view data and poor generalization to new viewpoints. We introduce BenchSeg, a novel multi-view food video segmentation dataset and benchmark. BenchSeg aggregates 55 dish scenes (from Nutrition5k, Vegetables & Fruits, MetaFood3D, and FoodKit) with 25,284 meticulously annotated frames, capturing each dish under free 360° camera motion. We evaluate a diverse set of 20 state-of-the-art segmentation models (e.g., SAM-based, transformer, CNN, and large multimodal) on the existing FoodSeg103 dataset and evaluate them (alone and combined with video-memory modules) on BenchSeg. Quantitative and qualitative results demonstrate that while standard image segmenters degrade sharply under novel viewpoints, memory-augmented methods maintain temporal consistency across frames. Our best model based on a combination of SeTR-MLA+XMem2 outperforms prior work (e.g., improving over FoodMem by ~2.63% mAP), offering new insights into food segmentation and tracking for dietary analysis. In addition to frame-wise spatial accuracy, we introduce a dedicated temporal evaluation protocol that explicitly quantifies segmentation stability over time through continuity, flicker rate, and IoU drift metrics. This allows us to reveal failure modes that remain invisible under standard per-frame evaluations. We release BenchSeg to foster future research. The project page including the dataset annotations and the food segmentation models can be found at https://amughrabi.github.io/benchseg.
- Abstract(参考訳): 食品画像のセグメンテーションは食事分析にとって重要な課題であり、食物量と栄養素の正確な推定を可能にする。
しかし、現在の手法は、限られた多視点データと、新しい視点への一般化の欠如に悩まされている。
我々は、新しいマルチビューフードビデオセグメンテーションデータセットとベンチマークであるBenchSegを紹介する。
BenchSegは55の料理シーン(Nutrition5k, Vegetables & Fruits, MetaFood3D, およびFoodKit)を25,284の微妙な注釈付きフレームで集約し、各料理を360度カメラで撮影する。
既存のFoodSeg103データセット上で,20種類の最先端セグメンテーションモデル(SAMベース,トランスフォーマー,CNN,大規模マルチモーダルなど)を評価し,BenchSeg上で評価を行った。
定量的および定性的な結果は、標準的な画像セグメンタが新しい視点で急激に劣化する一方で、メモリ拡張方式がフレーム間の時間的一貫性を維持することを示した。
SeTR-MLA+XMem2の組み合わせによる最良のモデルでは、食品のセグメンテーションに関する新たな洞察を提供し、食事分析のためのトラッキングを提供する(例:FoodMemを2.63%改善)。
フレーム単位の空間的精度に加えて,連続性,フリックレート,およびIoUドリフトメトリクスを通じて時間経過に伴うセグメンテーション安定性を明示的に評価する専用の時間的評価プロトコルを導入する。
これにより、フレーム単位の標準的な評価では見えない障害モードが明らかになります。
将来の研究を促進するため、BenchSegをリリースします。
データセットのアノテーションと食品のセグメンテーションモデルを含むプロジェクトページはhttps://amughrabi.github.io/benchseg.comで見ることができる。
関連論文リスト
- LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。
まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。
そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文 参考訳(メタデータ) (2025-11-20T04:38:56Z) - EPFL-Smart-Kitchen-30: Densely annotated cooking dataset with 3D kinematics to challenge video and language models [69.44009961659668]
キッチン環境内のモーションキャプチャプラットフォームで収集したEPFL-Smart-Kitchen-30データセットについて紹介する。
9台の静止RGB-Dカメラ、慣性測定ユニット(IMU)、ヘッドマウント型HoloLens2ヘッドセットが3D手、体、眼の動きを捉えた。
このデータセットは、シンクロナイズドエキソセントリック、エゴセントリック、深さ、IMU、視線、体、手動の4種類のレシピを調理する16人の被験者の29.7時間にわたる多視点アクションデータセットである。
論文 参考訳(メタデータ) (2025-06-02T12:46:44Z) - FoodMem: Near Real-time and Precise Food Video Segmentation [4.282795945742752]
現在の制限は、不正確な栄養分析、非効率な作物管理、最適な食品加工に繋がる。
本研究では,高品質でほぼリアルタイムなセグメンテーションとビデオ中の食品の追跡のための堅牢なフレームワークの開発を紹介する。
私たちは、360度シーンのビデオシーケンスから食品を分割する新しいフレームワーク、FoodMemを紹介します。
論文 参考訳(メタデータ) (2024-07-16T19:15:07Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - FoodSAM: Any Food Segmentation [10.467966270491228]
本稿では,SAM生成マスクにおけるクラス固有の情報の欠如に対処する新しいフレームワークであるFoodSAMを提案する。
FoodSAMは、粗いセマンティックマスクとSAM生成マスクを統合し、セマンティックセマンティクスの品質を高める。
FoodSAMは、食品画像の例、パノプティクス、即時セグメンテーションを達成するための最初の作業である。
論文 参考訳(メタデータ) (2023-08-11T04:42:10Z) - Transferring Knowledge for Food Image Segmentation using Transformers
and Convolutions [65.50975507723827]
食品画像のセグメンテーションは、食品の皿の栄養価を推定するなど、ユビキタスな用途を持つ重要なタスクである。
1つの課題は、食品が重なり合ったり混ざったりし、区別が難しいことだ。
2つのモデルが訓練され、比較される。1つは畳み込みニューラルネットワークに基づくもので、もう1つは画像変換器(BEiT)のための双方向表現に関するものである。
BEiTモデルは、FoodSeg103上の49.4の結合の平均的交点を達成することで、従来の最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2023-06-15T15:38:10Z) - A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。
これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。
ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文 参考訳(メタデータ) (2021-05-12T03:00:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。