Fugu-MT 論文翻訳(概要): DietDelta: A Vision-Language Approach for Dietary Assessment via Before-and-After Images

論文の概要: DietDelta: A Vision-Language Approach for Dietary Assessment via Before-and-After Images

arxiv url: http://arxiv.org/abs/2604.06352v1
Date: Tue, 07 Apr 2026 18:30:31 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-09 17:30:51.182615
Title: DietDelta: A Vision-Language Approach for Dietary Assessment via Before-and-After Images
Title（参考訳）: ダイエットデルタ:前・後画像による食事アセスメントのためのビジョンランゲージアプローチ
Authors: Gautham Vinod, Siddeshwar Raghavan, Bruce Coburn, Fengqing Zhu,
Abstract要約: 本稿では,前食と後食の2つの画像を用いた食生活レベルの栄養分析のための視覚言語フレームワークを提案する。本手法は,自然言語のプロンプトを利用して,特定の食品を局所化し,その重量を直接1枚のRGB画像から推定する。
参考スコア（独自算出の注目度）: 9.480328219158254
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Accurate dietary assessment is critical for precision nutrition, yet most image-based methods rely on a single pre-consumption image and provide only coarse, meal-level estimates. These approaches cannot determine what was actually consumed and often require restrictive inputs such as depth sensing, multi-view imagery, or explicit segmentation. In this paper, we propose a simple vision-language framework for food-item-level nutritional analysis using paired before-and-after eating images. Instead of relying on rigid segmentation masks, our method leverages natural language prompts to localize specific food items and estimate their weight directly from a single RGB image. We further estimate food consumption by predicting weight differences between paired images using a two-stage training strategy. We evaluate our method on three publicly available datasets and demonstrate consistent improvements over existing approaches, establishing a strong baseline for before-and-after dietary image analysis.
Abstract（参考訳）: 正確な食事評価は栄養の正確さにとって重要であるが、ほとんどの画像ベースの方法は、単一の消費前画像に依存し、粗い食事レベルの見積もりのみを提供する。これらのアプローチは、実際に消費されたものを決定することができず、しばしば深度検知、多視点画像、明示的なセグメンテーションなどの制限的な入力を必要とする。本稿では,2つの前・後食画像を用いた食事レベルの栄養分析のための簡易な視覚言語フレームワークを提案する。厳密なセグメンテーションマスクに頼る代わりに、自然言語のプロンプトを利用して特定の食品をローカライズし、その重量を単一のRGB画像から直接推定する。さらに,2段階のトレーニング戦略を用いて,ペア画像間の重量差を予測し,食品の消費を推定する。提案手法を3つの公開データセット上で評価し,既存のアプローチに対する一貫した改善を実証し,食事前と食後の画像解析の強力なベースラインを確立した。

関連論文リスト

Food Portion Estimation: From Pixels to Calories [9.670264791361605]
画像に基づく食事評価では、2次元画像入力から食品の3次元サイズを推定する。深層学習はまた、画像の単眼画像または補助入力の組み合わせを使用することでギャップを埋め、画像入力からの出力部分を正確に予測する。
論文参考訳（メタデータ） (2026-02-04T21:53:21Z)
How Much You Ate? Food Portion Estimation on Spoons [63.611551981684244]
現在の画像に基づく食品部分推定アルゴリズムは、ユーザが食事の画像を1、2回取ることを前提としている。本稿では,静止型ユーザ向けカメラを用いて,機器上の食品の追跡を行う革新的なソリューションを提案する。本システムは,スープやシチューなどの液状固形不均一混合物の栄養含量の推定に信頼性が高い。
論文参考訳（メタデータ） (2024-05-12T00:16:02Z)
NutritionVerse-Real: An Open Access Manually Collected 2D Food Scene Dataset for Dietary Intake Estimation [68.49526750115429]
食事摂取推定のための2D食品シーンデータセットであるNutritionVerse-Realを導入する。 NutritionVerse-Realデータセットは、実生活における食品シーンのイメージを手作業で収集し、各成分の重量を測定し、各料理の食生活内容を計算することによって作成されました。
論文参考訳（メタデータ） (2023-11-20T11:05:20Z)
NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文参考訳（メタデータ） (2023-09-14T13:29:41Z)
An End-to-end Food Portion Estimation Framework Based on Shape Reconstruction from Monocular Image [7.380382380564532]
3次元形状再構成による単眼画像からの食品エネルギー推定のためのエンドツーエンドのディープラーニングフレームワークを提案する。その結果,40.05kCalの平均絶対誤差 (MAE) とMAPEの11.47%の平均絶対誤差 (MAPE) が得られた。
論文参考訳（メタデータ） (2023-08-03T15:17:24Z)
Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文参考訳（メタデータ） (2022-06-05T02:41:44Z)
A Large-Scale Benchmark for Food Image Segmentation [62.28029856051079]
我々は9,490枚の画像を含む新しい食品画像データセットFoodSeg103(およびその拡張FoodSeg154)を構築します。これらの画像に154種類の成分を付加し,各画像は平均6つの成分ラベルと画素単位のマスクを有する。 ReLeMと呼ばれるマルチモダリティプリトレーニングアプローチを提案し、豊富なセマンティックな食品知識を持つセグメンテーションモデルを明確に装備します。
論文参考訳（メタデータ） (2021-05-12T03:00:07Z)
Saliency-Aware Class-Agnostic Food Image Segmentation [10.664526852464812]
クラス別食品画像分割法を提案する。画像の前後の情報を利用すれば、目立たないオブジェクトを見つけることで、食べ物のイメージをセグメンテーションすることができる。本手法は,食餌研究から収集した食品画像を用いて検証する。
論文参考訳（メタデータ） (2021-02-13T08:05:19Z)
An End-to-End Food Image Analysis System [8.622335099019214]
食品の局所化, 分類, 部分サイズ推定を統合した画像に基づく食品分析フレームワークを提案する。提案するフレームワークはエンドツーエンドであり,複数の食品を含む任意の食品画像として入力することができる。本研究の枠組みは,栄養摂食調査から収集した実生活食品画像データセットを用いて評価する。
論文参考訳（メタデータ） (2021-02-01T05:36:20Z)
Multi-Task Image-Based Dietary Assessment for Food Recognition and Portion Size Estimation [6.603050343996914]
本稿では,食品分類と食品部分サイズ推定の両立が可能なエンドツーエンドマルチタスクフレームワークを提案する。本結果は,分類精度と部分推定の平均絶対誤差の両方において,ベースライン法より優れる。
論文参考訳（メタデータ） (2020-04-27T21:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。