論文の概要: PortionNet: Distilling 3D Geometric Knowledge for Food Nutrition Estimation
- arxiv url: http://arxiv.org/abs/2512.22304v1
- Date: Fri, 26 Dec 2025 04:50:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:29.978142
- Title: PortionNet: Distilling 3D Geometric Knowledge for Food Nutrition Estimation
- Title(参考訳): PortionNet: 食品栄養推定のための3次元幾何学的知識の蒸留
- Authors: Darrin Bright, Rakshith Raj, Kanchan Keisham,
- Abstract要約: PortionNetは、トレーニング中にポイントクラウドから幾何学的特徴を学習し、推論時にRGBイメージのみを必要とする新しいフレームワークである。
当社のアプローチでは、軽量アダプタネットワークがポイントクラウド表現を模倣し、特別なハードウェア要件なしに擬似3D推論を可能にする、デュアルモードのトレーニング戦略を採用している。
PortionNetはMetaFood3Dの最先端性能を達成し、音量推定とエネルギー推定の両方で従来の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate food nutrition estimation from single images is challenging due to the loss of 3D information. While depth-based methods provide reliable geometry, they remain inaccessible on most smartphones because of depth-sensor requirements. To overcome this challenge, we propose PortionNet, a novel cross-modal knowledge distillation framework that learns geometric features from point clouds during training while requiring only RGB images at inference. Our approach employs a dual-mode training strategy where a lightweight adapter network mimics point cloud representations, enabling pseudo-3D reasoning without any specialized hardware requirements. PortionNet achieves state-of-the-art performance on MetaFood3D, outperforming all previous methods in both volume and energy estimation. Cross-dataset evaluation on SimpleFood45 further demonstrates strong generalization in energy estimation.
- Abstract(参考訳): 単一画像からの正確な栄養推定は、3D情報の欠落により困難である。
深度に基づく手法は信頼性の高い幾何を提供するが、深度センサの要求のためほとんどのスマートフォンではアクセスできない。
この課題を克服するために、トレーニング中の点雲から幾何学的特徴を学習し、推論時にRGB画像のみを必要とする新しいクロスモーダルな知識蒸留フレームワークであるPortionNetを提案する。
当社のアプローチでは、軽量アダプタネットワークがポイントクラウド表現を模倣し、特別なハードウェア要件なしに擬似3D推論を可能にする、デュアルモードのトレーニング戦略を採用している。
PortionNetはMetaFood3Dの最先端性能を達成し、音量推定とエネルギー推定の両方で従来の手法よりも優れていた。
SimpleFood45のクロスデータセット評価は、エネルギー推定の強力な一般化を示す。
関連論文リスト
- VLM6D: VLM based 6Dof Pose Estimation based on RGB-D Images [7.044221981512693]
VLM6Dは、RGB-D入力からの視覚的および幾何学的データの強度を利用して、ロバストで正確なポーズ推定を行う新しいデュアルストリームアーキテクチャである。
我々は, VLM6D が Occluded-LineMOD に挑戦する上で, 新たな SOTA 性能を得るための総合実験を行った。
論文 参考訳(メタデータ) (2025-10-31T05:26:41Z) - BIP3D: Bridging 2D Images and 3D Perception for Embodied Intelligence [11.91274849875519]
画像中心の3次元知覚モデルBIP3Dを導入し,点中心の手法の限界を克服する。
我々は、事前学習された2次元視覚基盤モデルを利用して意味理解を強化し、空間理解を改善するために空間拡張モジュールを導入する。
我々の実験では、BIP3Dは、EmbodiedScanベンチマークで現在の最先端結果より優れており、3D検出タスクでは5.69%、視覚的グラウンドタスクでは15.25%の改善が達成されている。
論文 参考訳(メタデータ) (2024-11-22T11:35:42Z) - MFP3D: Monocular Food Portion Estimation Leveraging 3D Point Clouds [7.357322789192671]
本稿では,単一の単分子画像のみを用いて,食品の正確な推定を行うための新しい枠組みを提案する。
本フレームワークは,(1)2次元画像から食品の3次元点クラウド表現を生成する3次元再構成モジュール,(2)3次元点クラウドと2次元RGB画像の両方の特徴を抽出し表現する特徴抽出モジュール,(3)食品の容積とエネルギー量を推定するために深い回帰モデルを利用するポーション回帰モジュールの3つの主要なモジュールから構成される。
論文 参考訳(メタデータ) (2024-11-14T22:17:27Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - PointMCD: Boosting Deep Point Cloud Encoders via Multi-view Cross-modal
Distillation for 3D Shape Recognition [55.38462937452363]
本稿では,教師として事前訓練されたディープイメージエンコーダ,学生としてディープポイントエンコーダを含む多視点クロスモーダル蒸留アーキテクチャを提案する。
複数ビューの視覚的および幾何学的記述子をペアワイズにアライメントすることで、より強力なディープポイントエンコーダを、疲労や複雑なネットワーク修正を伴わずに得ることができる。
論文 参考訳(メタデータ) (2022-07-07T07:23:20Z) - GDRNPP: A Geometry-guided and Fully Learning-based Object Pose Estimator [51.89441403642665]
剛体物体の6次元ポーズ推定はコンピュータビジョンにおける長年の課題である。
近年、ディープラーニングの出現は、信頼できる6Dポーズを予測するための畳み込みニューラルネットワーク(CNN)の可能性を明らかにしている。
本稿では,完全学習型オブジェクトポーズ推定器を提案する。
論文 参考訳(メタデータ) (2021-02-24T09:11:31Z) - Partially Supervised Multi-Task Network for Single-View Dietary
Assessment [1.8907108368038217]
本研究では,1つの食品画像上で幾何学的理解(深度予測と3次元平面推定)と意味予測を共同で行うネットワークアーキテクチャを提案する。
ネットワークのトレーニングには,意味的接地真理を持つ単眼ビデオのみが必要であるが,深度マップと3次元平面的接地真理はもはや不要である。
2つの食品画像データベースの実験結果から,本手法がテクスチャレスのシナリオで頑健に動作することを示す。
論文 参考訳(メタデータ) (2020-07-15T08:53:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。