論文の概要: V-Nutri: Dish-Level Nutrition Estimation from Egocentric Cooking Videos
- arxiv url: http://arxiv.org/abs/2604.11913v1
- Date: Mon, 13 Apr 2026 18:04:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.048772
- Title: V-Nutri: Dish-Level Nutrition Estimation from Egocentric Cooking Videos
- Title(参考訳): V-Nutri:エゴセントリックな調理映像からのディッシュレベル栄養推定
- Authors: Chengkun Yue, Chuanzhi Xu, Jiangpeng He,
- Abstract要約: 本研究では,エゴセントリックな調理ビデオから得られる調理プロセス情報が,食器レベルの栄養評価に寄与するかどうかを検討する。
本稿では,Nutrition5Kを前提とした視覚バックボーンと軽量核融合モジュールを組み合わせたフレームワークであるV-Nutriを提案する。
HD-EPICデータセットの実験では、プロセスキューが相補的な栄養的証拠を提供し、制御された条件下での栄養的推定を改善することが示されている。
- 参考スコア(独自算出の注目度): 12.073311694888687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nutrition estimation of meals from visual data is an important problem for dietary monitoring and computational health, but existing approaches largely rely on single images of the finally completed dish. This setting is fundamentally limited because many nutritionally relevant ingredients and transformations, such as oils, sauces, and mixed components, become visually ambiguous after cooking, making accurate calorie and macronutrient estimation difficult. In this paper, we investigate whether the cooking process information from egocentric cooking videos can contribute to dish-level nutrition estimation. First, we further manually annotated the HD-EPIC dataset and established the first benchmark for video-based nutrition estimation. Most importantly, we propose V-Nutri, a staged framework that combines Nutrition5K-pretrained visual backbones with a lightweight fusion module that aggregates features from the final dish frame and cooking process keyframes extracted from the egocentric videos. V-Nutri also includes a cooking keyframes selection module, a VideoMamba-based event-detection model that targets ingredient-addition moments. Experiments on the HD-EPIC dataset show that process cues can provide complementary nutritional evidence, improving nutrition estimation under controlled conditions. Our results further indicate that the benefit of process keyframes depends strongly on backbone representation capacity and event detection quality. Our code and annotated dataset is available at https://github.com/K624-YCK/V-Nutri.
- Abstract(参考訳): 視覚的データから食事の栄養推定は、食事の監視と計算の健康にとって重要な問題であるが、既存のアプローチは、最終的に完成した料理の単一画像に大きく依存している。
この設定は、油、ソース、混合成分などの多くの栄養関連成分や変換が調理後に視覚的に曖昧になり、正確なカロリーとマクロ栄養素の推定が困難になるため、基本的に制限されている。
本稿では,エゴセントリックな調理ビデオから得られる調理プロセス情報が,料理レベルの栄養評価に寄与するかどうかを検討する。
まず,HD-EPICデータセットを手動でアノテートし,ビデオベースの栄養推定のための最初のベンチマークを構築した。
最も重要なことは、V-Nutriという、Nutrition5Kでトレーニングされた視覚的バックボーンと、最終食器フレームからの特徴を集約した軽量な融合モジュールと、エゴセントリックなビデオから抽出された調理プロセスキーフレームを組み合わせたステージドフレームワークを提案することである。
V-Nutriには、食材添加モーメントをターゲットとした、VideoMambaベースのイベント検出モデルである、調理キーフレーム選択モジュールも含まれている。
HD-EPICデータセットの実験では、プロセスキューが相補的な栄養的証拠を提供し、制御された条件下での栄養的推定を改善することが示されている。
さらに,プロセスキーフレームの利点は,バックボーン表現能力とイベント検出品質に強く依存していることが示唆された。
私たちのコードと注釈付きデータセットはhttps://github.com/K624-YCK/V-Nutri.comで公開されています。
関連論文リスト
- OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion [32.43875223470578]
既存の食品データセットのほとんどは、主に西洋料理に焦点を当てており、中国の料理を十分に網羅していない。
我々は8,036個の食品サンプルからなる総合マルチモーダルデータセットであるOmniFood8Kを紹介する。
本稿では,1枚のRGB画像から栄養予測を行うためのエンドツーエンドフレームワークを提案する。
論文 参考訳(メタデータ) (2026-04-14T06:45:32Z) - BenchSeg: A Large-Scale Dataset and Benchmark for Multi-View Food Video Segmentation [25.750204283738054]
我々は、新しいマルチビューフードビデオセグメンテーションデータセットとベンチマークであるBenchSegを紹介する。
BenchSegは55の料理シーンを25,284の微妙な注釈付きフレームで集約し、各料理を360度カメラで撮影する。
既存のFoodSeg103データセット上で20種類の最先端セグメンテーションモデルを評価し,BenchSeg上で評価する。
論文 参考訳(メタデータ) (2026-01-12T14:32:51Z) - Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion [69.84988999191343]
我々はファストフード(FastFood)について紹介する。ファストフード(FastFood)は、908のファストフードカテゴリーに84,446のイメージを持つデータセットで、成分や栄養のアノテーションが特徴である。
栄養推定の精度を高めるために,新しいモデル非依存型ビジュアル・イングレディエント・フィーチャー・フュージョン (VIF$2$) 法を提案する。
論文 参考訳(メタデータ) (2025-05-13T17:01:21Z) - NutritionVerse-Direct: Exploring Deep Neural Networks for Multitask Nutrition Prediction from Food Images [63.314702537010355]
自己申告法はしばしば不正確であり、重大な偏見に悩まされる。
近年、食品画像から栄養情報を予測するためにコンピュータビジョン予測システムを用いた研究が進められている。
本稿では,様々なニューラルネットワークアーキテクチャを活用することにより,食事摂取量推定の有効性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-05-13T14:56:55Z) - NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene
Dataset for Dietary Intake Estimation [68.49526750115429]
食事摂取推定のための2D食品シーンデータセットであるNutritionVerse-Realを導入する。
NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手作業で収集し、各成分の重量を測定し、各料理の食生活内容を計算することによって作成されました。
論文 参考訳(メタデータ) (2023-11-20T11:05:20Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - An End-to-End Food Image Analysis System [8.622335099019214]
食品の局所化, 分類, 部分サイズ推定を統合した画像に基づく食品分析フレームワークを提案する。
提案するフレームワークはエンドツーエンドであり,複数の食品を含む任意の食品画像として入力することができる。
本研究の枠組みは,栄養摂食調査から収集した実生活食品画像データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-02-01T05:36:20Z) - MyFood: A Food Segmentation and Classification System to Aid Nutritional
Monitoring [1.5469452301122173]
食料モニタリングの欠如は、人口の体重増加に大きく寄与している。
食品画像を認識するためにコンピュータビジョンでいくつかのソリューションが提案されているが、栄養モニタリングに特化しているものはほとんどない。
本研究は, ユーザの食事と栄養摂取の自動モニタリングを支援するために, 画像に提示された食品を分類・分別するインテリジェントシステムの開発について述べる。
論文 参考訳(メタデータ) (2020-12-05T17:40:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。