論文の概要: Understanding Image2Video Domain Shift in Food Segmentation: An Instance-level Analysis on Apples
- arxiv url: http://arxiv.org/abs/2602.08491v2
- Date: Tue, 10 Feb 2026 12:17:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 15:31:43.121399
- Title: Understanding Image2Video Domain Shift in Food Segmentation: An Instance-level Analysis on Apples
- Title(参考訳): Image2Videoの食品セグメンテーションにおけるドメインシフトの理解:Appleのインスタンスレベルの分析
- Authors: Keonvin Park, Aditya Pal, Jin Hong Mok,
- Abstract要約: 食品モニタリングやインスタンスカウントといった現実世界のアプリケーションでは、セグメンテーションのアウトプットは時間的に一貫性を持っていなければならない。
本研究は,リンゴを代表的な食品カテゴリーとする事例分割と追跡の視点を通して,この失敗を分析した。
その結果,フレーム単位のセグメンテーション精度は時間とともに安定したインスタンス識別に変換されないことがわかった。
- 参考スコア(独自算出の注目度): 0.2366840032676479
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food segmentation models trained on static images have achieved strong performance on benchmark datasets; however, their reliability in video settings remains poorly understood. In real-world applications such as food monitoring and instance counting, segmentation outputs must be temporally consistent, yet image-trained models often break down when deployed on videos. In this work, we analyze this failure through an instance segmentation and tracking perspective, focusing on apples as a representative food category. Models are trained solely on image-level food segmentation data and evaluated on video sequences using an instance segmentation with tracking-by-matching framework, enabling object-level temporal analysis. Our results reveal that high frame-wise segmentation accuracy does not translate to stable instance identities over time. Temporal appearance variations, particularly illumination changes, specular reflections, and texture ambiguity, lead to mask flickering and identity fragmentation, resulting in significant errors in apple counting. These failures are largely overlooked by conventional image-based metrics, which substantially overestimate real-world video performance. Beyond diagnosing the problem, we examine practical remedies that do not require full video supervision, including post-hoc temporal regularization and self-supervised temporal consistency objectives. Our findings suggest that the root cause of failure lies in image-centric training objectives that ignore temporal coherence, rather than model capacity. This study highlights a critical evaluation gap in food segmentation research and motivates temporally-aware learning and evaluation protocols for video-based food analysis.
- Abstract(参考訳): 静的な画像に基づいてトレーニングされた食品のセグメンテーションモデルは、ベンチマークデータセット上で強力なパフォーマンスを達成したが、ビデオ設定における信頼性はいまだによく分かっていない。
食品監視やインスタンスカウントといった現実世界のアプリケーションでは、セグメンテーションのアウトプットは時間的に一貫したものでなければならない。
本研究は,リンゴを代表的な食品カテゴリーとする事例セグメンテーションと追跡の観点から,この失敗を分析した。
モデルは、画像レベルの食品セグメンテーションデータのみに基づいて訓練され、トラッキング・バイ・マッチング・フレームワークを用いたインスタンスセグメンテーションを用いてビデオシーケンスで評価され、オブジェクトレベルの時間解析が可能である。
その結果,フレーム単位のセグメンテーション精度は時間とともに安定したインスタンス識別に変換されないことがわかった。
時間的な外観の変化、特に照明の変化、特異な反射、テクスチャのあいまいさは、マスクのひねりとアイデンティティの断片化をもたらし、リンゴの数え方に大きな誤差をもたらす。
これらの失敗は、現実世界のビデオパフォーマンスをかなり過大評価する従来の画像ベースメトリクスによって見落とされがちである。
問題を診断する以外に、ホック後の時間的正則化や自己監督的時間的整合性目標など、フルビデオ監視を必要としない実践的治療法を検討する。
その結果,失敗の原因は,モデル能力よりも時間的コヒーレンスを無視するイメージ中心の訓練目標にあることが示唆された。
本研究は、食品セグメンテーション研究における重要な評価ギャップを強調し、ビデオベースの食品分析のための時間的学習と評価プロトコルを動機付けている。
関連論文リスト
- LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。
まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。
そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文 参考訳(メタデータ) (2025-11-20T04:38:56Z) - A smart fridge with AI-enabled food computing [0.0]
IoT(Internet of Things)は、特に食品管理において、シームレスな接続性とインテリジェントなホームオートメーションを可能にする上で、重要な役割を担います。
IoTとコンピュータビジョンを統合することで、スマート冷蔵庫はESP32-CAMを使用して、リアルタイム食品検出、在庫追跡、温度監視を通じて食品管理効率を向上させる監視サブシステムを確立する。
論文 参考訳(メタデータ) (2025-09-09T05:29:00Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Food Image Classification and Segmentation with Attention-based Multiple
Instance Learning [51.279800092581844]
本稿では,食品画像分類とセマンティックセグメンテーションモデルを訓練するための弱教師付き方法論を提案する。
提案手法は、注意に基づくメカニズムと組み合わせて、複数のインスタンス学習アプローチに基づいている。
提案手法の有効性を検証するため,FoodSeg103データセット内の2つのメタクラスについて実験を行った。
論文 参考訳(メタデータ) (2023-08-22T13:59:47Z) - Rethinking Cooking State Recognition with Vision Transformers [0.0]
料理状態認識タスクにおいて視覚変換器(ViT)アーキテクチャの自己保持機構を提案する。
提案したアプローチは、画像から得られたグローバルな健全な特徴をカプセル化するとともに、より大きなデータセットから得られた重みを利用する。
私たちのフレームワークの精度は94.3%で、最先端のフレームワークよりも大幅に優れています。
論文 参考訳(メタデータ) (2022-12-16T17:06:28Z) - A novel illumination condition varied image dataset-Food Vision Dataset
(FVD) for fair and reliable consumer acceptability predictions from food [0.0]
グループは、人間とコンピュータの知覚に対する照明効果を定量化する新しいデータセット、Food Vision dataset(FVD)を提示している。
FVDは3つの異なるパワーで撮影された675の画像と、5日ごとに5つの異なる温度設定で構成されている。
論文 参考訳(メタデータ) (2022-09-14T22:46:42Z) - Does Thermal data make the detection systems more reliable? [1.2891210250935146]
マルチモーダル協調フレームワークに基づく包括的検知システムを提案する。
このフレームワークは、RGB(ビジュアルカメラから)と熱(赤外線カメラから)の両方のデータから学習する。
実験の結果,精度の向上は名目上はいるものの,難易度と難易度は高いことがわかった。
論文 参考訳(メタデータ) (2021-11-09T15:04:34Z) - A Robust Illumination-Invariant Camera System for Agricultural
Applications [7.349727826230863]
オブジェクト検出とセマンティックセグメンテーションは、農業アプリケーションで最も広く採用されているディープラーニングアルゴリズムの2つです。
我々は,全ての照明条件下で一貫した画像を生成する,高スループットな能動照明カメラシステムを提案する。
平均して、オブジェクト検出のためのディープネットは、一貫性のあるデータで訓練され、同様の精度を達成するために4倍近いデータを必要としました。
論文 参考訳(メタデータ) (2021-01-06T18:50:53Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。