論文の概要: Size Matters: Reconstructing Real-Scale 3D Models from Monocular Images for Food Portion Estimation
- arxiv url: http://arxiv.org/abs/2601.20051v1
- Date: Tue, 27 Jan 2026 20:53:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.660066
- Title: Size Matters: Reconstructing Real-Scale 3D Models from Monocular Images for Food Portion Estimation
- Title(参考訳): サイズの問題:食品のポーション推定のための単眼画像から実物大の3Dモデルを構築する
- Authors: Gautham Vinod, Bruce Coburn, Siddeshwar Raghavan, Jiangpeng He, Fengqing Zhu,
- Abstract要約: 我々は,モノクロ画像から真の3次元再構成オブジェクトを復元する手法を提案することにより,3次元コンピュータビジョンとデジタルヘルスのギャップを埋める。
提案手法では,大規模データセットで学習したモデルから抽出したリッチな視覚的特徴を利用して,再構成対象の規模を推定する。
- 参考スコア(独自算出の注目度): 19.138014263791803
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rise of chronic diseases related to diet, such as obesity and diabetes, emphasizes the need for accurate monitoring of food intake. While AI-driven dietary assessment has made strides in recent years, the ill-posed nature of recovering size (portion) information from monocular images for accurate estimation of ``how much did you eat?'' is a pressing challenge. Some 3D reconstruction methods have achieved impressive geometric reconstruction but fail to recover the crucial real-world scale of the reconstructed object, limiting its usage in precision nutrition. In this paper, we bridge the gap between 3D computer vision and digital health by proposing a method that recovers a true-to-scale 3D reconstructed object from a monocular image. Our approach leverages rich visual features extracted from models trained on large-scale datasets to estimate the scale of the reconstructed object. This learned scale enables us to convert single-view 3D reconstructions into true-to-life, physically meaningful models. Extensive experiments and ablation studies on two publicly available datasets show that our method consistently outperforms existing techniques, achieving nearly a 30% reduction in mean absolute volume-estimation error, showcasing its potential to enhance the domain of precision nutrition. Code: https://gitlab.com/viper-purdue/size-matters
- Abstract(参考訳): 肥満や糖尿病などの食事に関連する慢性疾患の増加は、食物摂取の正確なモニタリングの必要性を強調している。
近年、AIによる食事評価が進みつつあるが、モノクロ画像からサイズ(ポーション)情報を復元する不適切な性質が「どれだけ食べましたか?」の正確な推定に役立っているのは、非常に難しい課題である。
幾らかの3次元再構成法は、目覚ましい幾何学的再構成を達成しているが、再現された物体の重要な現実世界のスケールを回復することができず、精度の高い栄養素の使用を制限している。
本稿では,モノクロ画像から真の3次元再構成オブジェクトを復元する手法を提案することにより,3次元コンピュータビジョンとデジタルヘルスのギャップを埋める。
提案手法では,大規模データセットで学習したモデルから抽出したリッチな視覚的特徴を利用して,再構成対象の規模を推定する。
この学習スケールにより、単一視点の3D再構成を真から現実へ、物理的に意味のあるモデルに変換することができる。
2つの公開データセットに対する大規模な実験およびアブレーション研究により、我々の手法は既存の手法より一貫して優れており、平均絶対体積推定誤差が30%近く減少し、精度栄養の領域を拡大する可能性を示している。
コード:https://gitlab.com/viper-purdue/size-matters
関連論文リスト
- Canonical Pose Reconstruction from Single Depth Image for 3D Non-rigid Pose Recovery on Limited Datasets [55.84702107871358]
2Dインプットからの3D再構成、特に人間のような非剛体オブジェクトは、ユニークな課題を提示する。
従来の手法は、変形空間全体をカバーするために広範囲なトレーニングデータを必要とする非剛体形状に苦しむことが多い。
本研究では,変形可能な形状の単一視点深度画像を標準形に変換する正準ポーズ再構成モデルを提案する。
論文 参考訳(メタデータ) (2025-05-23T14:58:34Z) - Dietary Intake Estimation via Continuous 3D Reconstruction of Food [5.010690651107531]
本研究では,モノクロ2Dビデオから構築した3次元食品モデルを利用して,摂取行動の正確なモニタリングを行う手法を提案する。
おもちゃのモデルと実際の食品による実験は、アプローチの可能性を示している。
論文 参考訳(メタデータ) (2025-05-01T15:35:42Z) - MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds [7.357322789192671]
本稿では,単一の単分子画像のみを用いて,食品の正確な推定を行うための新しい枠組みを提案する。
本フレームワークは,(1)2次元画像から食品の3次元点クラウド表現を生成する3次元再構成モジュール,(2)3次元点クラウドと2次元RGB画像の両方の特徴を抽出し表現する特徴抽出モジュール,(3)食品の容積とエネルギー量を推定するために深い回帰モデルを利用するポーション回帰モジュールの3つの主要なモジュールから構成される。
論文 参考訳(メタデータ) (2024-11-14T22:17:27Z) - 3D Reconstruction of the Human Colon from Capsule Endoscope Video [2.3513645401551337]
本研究では,ヒト大腸全切片の3次元モデル構築の可能性について,ワイヤレスカプセル内視鏡による画像シーケンスを用いて検討した。
近年のヒト消化器系の仮想グラフィックベースモデルでは、歪みやアーティファクトの有効化や無効化が可能なため、問題の解決が可能になっている。
論文 参考訳(メタデータ) (2024-07-21T17:31:38Z) - MetaFood CVPR 2024 Challenge on Physically Informed 3D Food Reconstruction: Methods and Results [52.07174491056479]
私たちはMetaFood Workshopを主催し、物理的にインフォームドされた3Dフードレコンストラクションへの挑戦を行っている。
本課題は,2次元画像から,視認性チェッカーボードをサイズ基準として,食品の容積正確な3次元モデルを再構築することに焦点を当てる。
この課題で開発されたソリューションは、3D食品の復元において有望な成果を達成し、食事評価と栄養モニタリングのための部分推定の改善に有意な可能性を秘めている。
論文 参考訳(メタデータ) (2024-07-12T14:15:48Z) - Recovering 3D Human Mesh from Monocular Images: A Survey [49.00136388529404]
単眼画像から人間のポーズと形状を推定することは、コンピュータビジョンにおける長年の問題である。
本調査は, 単分子型3次元メッシュ回収の課題に焦点を当てた。
論文 参考訳(メタデータ) (2022-03-03T18:56:08Z) - Multi-View Consistency Loss for Improved Single-Image 3D Reconstruction
of Clothed People [36.30755368202957]
本稿では,1枚の画像から3次元人物形状復元の精度を向上させるための新しい手法を提案する。
衣服、髪、体の大きさ、ポーズ、カメラの視点などによる形状の変化が大きいため、衣服の復元の正確さと完全性は限られている。
論文 参考訳(メタデータ) (2020-09-29T17:18:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。