論文の概要: Implicit-Scale 3D Reconstruction for Multi-Food Volume Estimation from Monocular Images
- arxiv url: http://arxiv.org/abs/2602.13041v1
- Date: Fri, 13 Feb 2026 15:52:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.019748
- Title: Implicit-Scale 3D Reconstruction for Multi-Food Volume Estimation from Monocular Images
- Title(参考訳): 単眼画像からのマルチフード体積推定のためのインシシットスケール3次元再構成
- Authors: Yuhao Chen, Gautham Vinod, Siddeshwar Raghavan, Talha Ibn Mahmud, Bruce Coburn, Jinge Ma, Fengqing Zhu, Jiangpeng He,
- Abstract要約: Implicit-Scale 3D Reconstruction from Monocular Multi-Food Imagesは、幾何学に基づく食品部分推定を向上するために設計されたベンチマークデータセットである。
このベンチマークは、単眼観察下での食品部分推定を暗黙的な3次元再構成問題として再設定する。
- 参考スコア(独自算出の注目度): 21.112563168240737
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Implicit-Scale 3D Reconstruction from Monocular Multi-Food Images, a benchmark dataset designed to advance geometry-based food portion estimation in realistic dining scenarios. Existing dietary assessment methods largely rely on single-image analysis or appearance-based inference, including recent vision-language models, which lack explicit geometric reasoning and are sensitive to scale ambiguity. This benchmark reframes food portion estimation as an implicit-scale 3D reconstruction problem under monocular observations. To reflect real-world conditions, explicit physical references and metric annotations are removed; instead, contextual objects such as plates and utensils are provided, requiring algorithms to infer scale from implicit cues and prior knowledge. The dataset emphasizes multi-food scenes with diverse object geometries, frequent occlusions, and complex spatial arrangements. The benchmark was adopted as a challenge at the MetaFood 2025 Workshop, where multiple teams proposed reconstruction-based solutions. Experimental results show that while strong vision--language baselines achieve competitive performance, geometry-based reconstruction methods provide both improved accuracy and greater robustness, with the top-performing approach achieving 0.21 MAPE in volume estimation and 5.7 L1 Chamfer Distance in geometric accuracy.
- Abstract(参考訳): リアルなダイニングシナリオにおいて、幾何学に基づく食品部分推定を推し進めるためのベンチマークデータセットである、単眼多食物画像からのインプリシットスケール3D再構成を提案する。
既存の食事評価手法は、目に見える幾何学的推論が欠如しており、曖昧さのスケールに敏感な最近の視覚言語モデルを含む、単画像分析や外観に基づく推論に大きく依存している。
このベンチマークは、単眼観察下での食品部分推定を暗黙的な3次元再構成問題として再設定する。
現実世界の条件を反映するため、明示的な物理的参照やメートル法アノテーションが取り除かれ、代わりにプレートや道具のようなコンテキストオブジェクトが提供され、暗黙の手がかりや事前の知識からスケールを推定する必要がある。
このデータセットは、多様なオブジェクトジオメトリ、頻繁なオクルージョン、複雑な空間配置を備えたマルチフードシーンを強調している。
ベンチマークはMetaFood 2025 Workshopの課題として採用され、複数のチームが再構築ベースのソリューションを提案した。
実験結果から,強い視覚言語ベースラインが競争性能を達成する一方で,幾何に基づく再構築手法は精度の向上とロバスト性の向上を両立し,最大性能は容積推定0.21 MAPE,幾何学的精度は5.7 L1 Chamfer Distanceであることがわかった。
関連論文リスト
- Size Matters: Reconstructing Real-Scale 3D Models from Monocular Images for Food Portion Estimation [19.138014263791803]
我々は,モノクロ画像から真の3次元再構成オブジェクトを復元する手法を提案することにより,3次元コンピュータビジョンとデジタルヘルスのギャップを埋める。
提案手法では,大規模データセットで学習したモデルから抽出したリッチな視覚的特徴を利用して,再構成対象の規模を推定する。
論文 参考訳(メタデータ) (2026-01-27T20:53:45Z) - TangramPuzzle: Evaluating Multimodal Large Language Models with Compositional Spatial Reasoning [104.66714520975837]
古典的タングラムゲームのレンズを通して構成空間推論を評価するために,幾何グラウンドのベンチマークを導入する。
本稿では,タングラム集合を正確に機械で検証可能な座標仕様でグルーピングする記号幾何学的枠組みであるタングラム構成式(TCE)を提案する。
MLLMは、幾何学的制約を無視しながら、ターゲットのシルエットとのマッチングを優先する傾向がある。
論文 参考訳(メタデータ) (2026-01-23T07:35:05Z) - Gaussian Alignment for Relative Camera Pose Estimation via Single-View Reconstruction [18.936573991468926]
GARPSは、2つの独立して再構成された3Dシーンの直接的なアライメントとしてこの問題を論じる、トレーニング不要のフレームワークである。
差分可能なGMMアライメント目標を最適化することにより、フィードフォワード2ビューポーズ推定器の初期ポーズを洗練する。
Real-Estate10Kデータセットの実験では、GARPSが古典的および最先端の学習ベースの手法よりも優れていることが示されている。
論文 参考訳(メタデータ) (2025-09-17T02:57:34Z) - GIQ: Benchmarking 3D Geometric Reasoning of Vision Foundation Models with Simulated and Real Polyhedra [33.53387523266523]
本稿では,視覚モデルと視覚言語基礎モデルの幾何学的推論能力を評価するためのベンチマークであるGIQを紹介する。
GIQは224種類の多面体からなる合成および実世界の画像からなる。
論文 参考訳(メタデータ) (2025-06-09T20:11:21Z) - Mono3R: Exploiting Monocular Cues for Geometric 3D Reconstruction [11.220655907305515]
多視点再構成フレームワークにモノクラー幾何の先行を組み込んだモノクラー誘導リファインメントモジュールを導入する。
本手法は,マルチビューカメラのポーズ推定と点雲の精度の両面で大幅に向上する。
論文 参考訳(メタデータ) (2025-04-18T02:33:12Z) - UNOPose: Unseen Object Pose Estimation with an Unposed RGB-D Reference Image [86.7128543480229]
見えないオブジェクトのポーズ推定方法はCADモデルや複数の参照ビューに依存することが多い。
参照取得を簡略化するために,未提示のRGB-D参照画像を用いて未確認オブジェクトのポーズを推定することを目的とする。
単参照型オブジェクトポーズ推定のための新しいアプローチとベンチマークをUNOPoseと呼ぶ。
論文 参考訳(メタデータ) (2024-11-25T05:36:00Z) - FrozenRecon: Pose-free 3D Scene Reconstruction with Frozen Depth Models [67.96827539201071]
本稿では,3次元シーン再構成のための新しいテスト時間最適化手法を提案する。
本手法は5つのゼロショットテストデータセット上で,最先端のクロスデータセット再構築を実現する。
論文 参考訳(メタデータ) (2023-08-10T17:55:02Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Single View Metrology in the Wild [94.7005246862618]
本研究では,物体の3次元の高さや地上のカメラの高さで表現されるシーンの絶対的なスケールを再現する,単一ビューメロジに対する新しいアプローチを提案する。
本手法は,被写体の高さなどの3Dエンティティによる未知のカメラとの相互作用から,弱い教師付き制約を抑えるために設計されたディープネットワークによって学習されたデータ駆動の先行情報に依存する。
いくつかのデータセットと仮想オブジェクト挿入を含むアプリケーションに対して、最先端の定性的かつ定量的な結果を示す。
論文 参考訳(メタデータ) (2020-07-18T22:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。