論文の概要: MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds
- arxiv url: http://arxiv.org/abs/2411.10492v1
- Date: Thu, 14 Nov 2024 22:17:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:35.629732
- Title: MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds
- Title(参考訳): MFP3D: 3次元点雲を利用した単分子食品のポーション推定
- Authors: Jinge Ma, Xiaoyan Zhang, Gautham Vinod, Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu,
- Abstract要約: 本稿では,単一の単分子画像のみを用いて,食品の正確な推定を行うための新しい枠組みを提案する。
本フレームワークは,(1)2次元画像から食品の3次元点クラウド表現を生成する3次元再構成モジュール,(2)3次元点クラウドと2次元RGB画像の両方の特徴を抽出し表現する特徴抽出モジュール,(3)食品の容積とエネルギー量を推定するために深い回帰モデルを利用するポーション回帰モジュールの3つの主要なモジュールから構成される。
- 参考スコア(独自算出の注目度): 7.357322789192671
- License:
- Abstract: Food portion estimation is crucial for monitoring health and tracking dietary intake. Image-based dietary assessment, which involves analyzing eating occasion images using computer vision techniques, is increasingly replacing traditional methods such as 24-hour recalls. However, accurately estimating the nutritional content from images remains challenging due to the loss of 3D information when projecting to the 2D image plane. Existing portion estimation methods are challenging to deploy in real-world scenarios due to their reliance on specific requirements, such as physical reference objects, high-quality depth information, or multi-view images and videos. In this paper, we introduce MFP3D, a new framework for accurate food portion estimation using only a single monocular image. Specifically, MFP3D consists of three key modules: (1) a 3D Reconstruction Module that generates a 3D point cloud representation of the food from the 2D image, (2) a Feature Extraction Module that extracts and concatenates features from both the 3D point cloud and the 2D RGB image, and (3) a Portion Regression Module that employs a deep regression model to estimate the food's volume and energy content based on the extracted features. Our MFP3D is evaluated on MetaFood3D dataset, demonstrating its significant improvement in accurate portion estimation over existing methods.
- Abstract(参考訳): 食事部分の推定は健康状態のモニタリングと食事摂取の追跡に不可欠である。
画像に基づく食事評価は、コンピュータビジョン技術を用いて食事時の画像を分析し、24時間リコールなどの従来の方法を置き換える傾向にある。
しかし,2次元画像面に投影する場合の3次元情報の欠落により,画像から栄養成分を正確に推定することは依然として困難である。
既存の部分推定手法は,物理参照オブジェクトや高品質深度情報,マルチビュー画像やビデオなど,特定の要件に依存しているため,現実のシナリオに展開することが難しい。
本稿では,単一の単眼画像のみを用いて食品部分の正確な推定を行うための新しいフレームワークであるMFP3Dを紹介する。
具体的には,(1)2D画像から食品の3Dポイントクラウド表現を生成する3D再構成モジュール,(2)3Dポイントクラウドと2DRGB画像の両方から特徴を抽出・連結する特徴抽出モジュール,(3)深い回帰モデルを用いて食品の容積とエネルギー量を推定するポーション回帰モジュールの3つの重要なモジュールから構成される。
我々のMFP3DはMetaFood3Dデータセットで評価され、既存の手法よりも正確な部分推定が大幅に改善されたことを示す。
関連論文リスト
- MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - MetaFood CVPR 2024 Challenge on Physically Informed 3D Food Reconstruction: Methods and Results [52.07174491056479]
私たちはMetaFood Workshopを主催し、物理的にインフォームドされた3Dフードレコンストラクションへの挑戦を行っている。
本課題は,2次元画像から,視認性チェッカーボードをサイズ基準として,食品の容積正確な3次元モデルを再構築することに焦点を当てる。
この課題で開発されたソリューションは、3D食品の復元において有望な成果を達成し、食事評価と栄養モニタリングのための部分推定の改善に有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-07-12T14:15:48Z) - VolETA: One- and Few-shot Food Volume Estimation [4.282795945742752]
本稿では,3次元生成技術を用いた食品量推定手法であるVolETAについて述べる。
当社のアプローチでは,1枚または数枚のRGBD画像を用いて,食品の3Dメッシュをスケールアップする。
MTFデータセットを用いて10.97%のMAPEを用いて、ロバストで正確なボリューム推定を行う。
論文 参考訳(メタデータ) (2024-07-01T18:47:15Z) - UPose3D: Uncertainty-Aware 3D Human Pose Estimation with Cross-View and Temporal Cues [55.69339788566899]
UPose3Dは多視点人間のポーズ推定のための新しいアプローチである。
直接的な3Dアノテーションを必要とせずに、堅牢性と柔軟性を向上させる。
論文 参考訳(メタデータ) (2024-04-23T00:18:00Z) - Food Portion Estimation via 3D Object Scaling [8.164262056488447]
本稿では2次元画像から食品の体積とエネルギーを推定する新しい枠組みを提案する。
入力画像中のカメラと食品オブジェクトのポーズを推定する。
また、45の食品の2D画像を含むSimpleFood45という新しいデータセットも導入しました。
論文 参考訳(メタデータ) (2024-04-18T15:23:37Z) - 3DiffTection: 3D Object Detection with Geometry-Aware Diffusion Features [70.50665869806188]
3DiffTectionは、単一の画像から3Dオブジェクトを検出する最先端の方法である。
拡散モデルを微調整し、単一の画像に条件付けされた新しいビュー合成を行う。
さらに、検出監視により、ターゲットデータ上でモデルをトレーニングする。
論文 参考訳(メタデータ) (2023-11-07T23:46:41Z) - An End-to-end Food Portion Estimation Framework Based on Shape
Reconstruction from Monocular Image [7.380382380564532]
3次元形状再構成による単眼画像からの食品エネルギー推定のためのエンドツーエンドのディープラーニングフレームワークを提案する。
その結果,40.05kCalの平均絶対誤差 (MAE) とMAPEの11.47%の平均絶対誤差 (MAPE) が得られた。
論文 参考訳(メタデータ) (2023-08-03T15:17:24Z) - NutritionVerse-Thin: An Optimized Strategy for Enabling Improved
Rendering of 3D Thin Food Models [66.77685168785152]
薄型3D食品モデルのレンダリングを改善するための最適化戦略を提案する。
提案手法は,薄膜最適化微分可能再構成法を用いて3次元モデルメッシュを生成する。
単純ながら、この技術は細い3Dオブジェクトの迅速かつ高度に一貫したキャプチャに利用できる。
論文 参考訳(メタデータ) (2023-04-12T05:34:32Z) - NutritionVerse-3D: A 3D Food Model Dataset for Nutritional Intake
Estimation [65.47310907481042]
高齢者の4人に1人は栄養不良です。
機械学習とコンピュータビジョンは、食品の自動栄養トラッキング方法の約束を示す。
NutritionVerse-3Dは、105個の3D食品モデルの大規模な高解像度データセットである。
論文 参考訳(メタデータ) (2023-04-12T05:27:30Z) - Partially Supervised Multi-Task Network for Single-View Dietary
Assessment [1.8907108368038217]
本研究では,1つの食品画像上で幾何学的理解(深度予測と3次元平面推定)と意味予測を共同で行うネットワークアーキテクチャを提案する。
ネットワークのトレーニングには,意味的接地真理を持つ単眼ビデオのみが必要であるが,深度マップと3次元平面的接地真理はもはや不要である。
2つの食品画像データベースの実験結果から,本手法がテクスチャレスのシナリオで頑健に動作することを示す。
論文 参考訳(メタデータ) (2020-07-15T08:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。