論文の概要: VolE: A Point-cloud Framework for Food 3D Reconstruction and Volume Estimation
- arxiv url: http://arxiv.org/abs/2505.10205v1
- Date: Thu, 15 May 2025 12:03:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-16 22:29:06.304784
- Title: VolE: A Point-cloud Framework for Food 3D Reconstruction and Volume Estimation
- Title(参考訳): VolE: 食品3D再構成とボリューム推定のためのポイントクラウドフレームワーク
- Authors: Umair Haroon, Ahmad AlMughrabi, Thanasis Zoumpekas, Ricardo Marques, Petia Radeva,
- Abstract要約: モバイル端末駆動型3D再構成を利用して食品量を推定する新しいフレームワークであるVolEを提案する。
VolEは、AR対応モバイルデバイスのおかげで、画像やカメラの位置を自由に撮影し、正確な3Dモデルを生成する。
実験の結果,VolEは2.22 %のMAPEを達成し,複数のデータセットにわたる既存のボリューム推定手法より優れていることがわかった。
- 参考スコア(独自算出の注目度): 4.621139625109643
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Accurate food volume estimation is crucial for medical nutrition management and health monitoring applications, but current food volume estimation methods are often limited by mononuclear data, leveraging single-purpose hardware such as 3D scanners, gathering sensor-oriented information such as depth information, or relying on camera calibration using a reference object. In this paper, we present VolE, a novel framework that leverages mobile device-driven 3D reconstruction to estimate food volume. VolE captures images and camera locations in free motion to generate precise 3D models, thanks to AR-capable mobile devices. To achieve real-world measurement, VolE is a reference- and depth-free framework that leverages food video segmentation for food mask generation. We also introduce a new food dataset encompassing the challenging scenarios absent in the previous benchmarks. Our experiments demonstrate that VolE outperforms the existing volume estimation techniques across multiple datasets by achieving 2.22 % MAPE, highlighting its superior performance in food volume estimation.
- Abstract(参考訳): 正確な食品容積推定は、医療栄養管理や健康モニタリングの分野で重要であるが、現在の食品容積推定法は、単核データによって制限されることが多く、3Dスキャナーのような単一目的のハードウェアを活用し、深度情報などのセンサ指向の情報を収集したり、基準オブジェクトを用いたカメラキャリブレーションに依存する。
本稿では,モバイル端末駆動型3D再構成を利用した食品量推定手法であるVolEについて述べる。
VolEは、AR対応モバイルデバイスのおかげで、画像やカメラの位置を自由に撮影し、正確な3Dモデルを生成する。
実世界の計測を実現するため、VolEは食品マスク生成のための食品ビデオセグメンテーションを利用する参照および深度自由なフレームワークである。
また、以前のベンチマークに欠けている困難なシナリオを含む、新しい食品データセットも導入しました。
実験の結果、VolEは2.22%のMAPEを達成し、既存の複数のデータセットにおけるボリューム推定手法よりも優れており、食品量推定におけるその優れた性能を誇示している。
関連論文リスト
- MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds [7.357322789192671]
本稿では,単一の単分子画像のみを用いて,食品の正確な推定を行うための新しい枠組みを提案する。
本フレームワークは,(1)2次元画像から食品の3次元点クラウド表現を生成する3次元再構成モジュール,(2)3次元点クラウドと2次元RGB画像の両方の特徴を抽出し表現する特徴抽出モジュール,(3)食品の容積とエネルギー量を推定するために深い回帰モデルを利用するポーション回帰モジュールの3つの主要なモジュールから構成される。
論文 参考訳(メタデータ) (2024-11-14T22:17:27Z) - MetaFood3D: 3D Food Dataset with Nutrition Values [52.16894900096017]
このデータセットは、131のカテゴリにまたがって、743の精細にスキャンされ、ラベル付けされた3D食品オブジェクトで構成されている。
我々のMetaFood3Dデータセットはクラス内の多様性を重視しており、テクスチャメッシュファイル、RGB-Dビデオ、セグメンテーションマスクなどのリッチなモダリティを含んでいる。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - VolETA: One- and Few-shot Food Volume Estimation [4.282795945742752]
本稿では,3次元生成技術を用いた食品量推定手法であるVolETAについて述べる。
当社のアプローチでは,1枚または数枚のRGBD画像を用いて,食品の3Dメッシュをスケールアップする。
MTFデータセットを用いて10.97%のMAPEを用いて、ロバストで正確なボリューム推定を行う。
論文 参考訳(メタデータ) (2024-07-01T18:47:15Z) - Food Portion Estimation via 3D Object Scaling [8.164262056488447]
本稿では2次元画像から食品の体積とエネルギーを推定する新しい枠組みを提案する。
入力画像中のカメラと食品オブジェクトのポーズを推定する。
また、45の食品の2D画像を含むSimpleFood45という新しいデータセットも導入しました。
論文 参考訳(メタデータ) (2024-04-18T15:23:37Z) - VFMM3D: Releasing the Potential of Image by Vision Foundation Model for Monocular 3D Object Detection [80.62052650370416]
モノクル3Dオブジェクト検出は、自律運転やロボティクスなど、さまざまなアプリケーションにおいて重要な役割を担っている。
本稿では,VFMM3Dを提案する。VFMM3Dは,ビジョンファウンデーションモデル(VFM)の機能を利用して,単一ビュー画像を正確にLiDARポイントクラウド表現に変換する,革新的なフレームワークである。
論文 参考訳(メタデータ) (2024-04-15T03:12:12Z) - OccNeRF: Advancing 3D Occupancy Prediction in LiDAR-Free Environments [77.0399450848749]
本稿では,OccNeRF法を用いて,3次元監視なしで占有ネットワークを訓練する手法を提案する。
我々は、再構成された占有領域をパラメータ化し、サンプリング戦略を再編成し、カメラの無限知覚範囲に合わせる。
意味的占有予測のために,事前学習した開語彙2Dセグメンテーションモデルの出力をフィルタリングし,プロンプトを洗練するためのいくつかの戦略を設計する。
論文 参考訳(メタデータ) (2023-12-14T18:58:52Z) - Multi-Modal Dataset Acquisition for Photometrically Challenging Object [56.30027922063559]
本稿では,3次元視覚タスクにおける現在のデータセットの限界について,精度,サイズ,リアリズム,および光度に挑戦する対象に対する適切な画像モダリティの観点から検討する。
既存の3次元認識と6次元オブジェクトポーズデータセットを強化する新しいアノテーションと取得パイプラインを提案する。
論文 参考訳(メタデータ) (2023-08-21T10:38:32Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。