論文の概要: OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion
- arxiv url: http://arxiv.org/abs/2604.12356v1
- Date: Tue, 14 Apr 2026 06:45:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.295204
- Title: OmniFood8K: Single-Image Nutrition Estimation via Hierarchical Frequency-Aligned Fusion
- Title(参考訳): OmniFood8K:階層周波数対応核融合による単一画像栄養推定
- Authors: Dongjian Yu, Weiqing Min, Qian Jiang, Xing Lin, Xin Jin, Shuqiang Jiang,
- Abstract要約: 既存の食品データセットのほとんどは、主に西洋料理に焦点を当てており、中国の料理を十分に網羅していない。
我々は8,036個の食品サンプルからなる総合マルチモーダルデータセットであるOmniFood8Kを紹介する。
本稿では,1枚のRGB画像から栄養予測を行うためのエンドツーエンドフレームワークを提案する。
- 参考スコア(独自算出の注目度): 32.43875223470578
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accurate estimation of food nutrition plays a vital role in promoting healthy dietary habits and personalized diet management. Most existing food datasets primarily focus on Western cuisines and lack sufficient coverage of Chinese dishes, which restricts accurate nutritional estimation for Chinese meals. Moreover, many state-of-the-art nutrition prediction methods rely on depth sensors, restricting their applicability in daily scenarios. To address these limitations, we introduce OmniFood8K, a comprehensive multimodal dataset comprising 8,036 food samples, each with detailed nutritional annotations and multi-view images. In addition, to enhance models' capability in nutritional prediction, we construct NutritionSynth-115K, a large-scale synthetic dataset that introduces compositional variations while preserving precise nutritional labels. Moreover, we propose an end-to-end framework for nutritional prediction from a single RGB image. First, we predict a depth map from a single RGB image and design the Scale-Shift Residual Adapter (SSRA) to refine it for global scale consistency and local structural preservation. Second, we propose the Frequency-Aligned Fusion Module (FAFM) to hierarchically align and fuse RGB and depth features in the frequency domain. Finally, we design a Mask-based Prediction Head (MPH) to emphasize key ingredient regions via dynamic channel selection for more accurate prediction. Extensive experiments on multiple datasets demonstrate the superiority of our method over existing approaches. Project homepage: https://yudongjian.github.io/OmniFood8K-food/
- Abstract(参考訳): 食品栄養の正確な推定は、健康な食事習慣とパーソナライズされた食事管理を促進する上で重要な役割を担っている。
既存の食品データセットのほとんどは、主に西洋料理に焦点を当てており、中国の食事の正確な栄養推定を制限する中国の料理を十分に網羅していない。
さらに、最先端の栄養予測手法の多くは深度センサーに依存しており、日々のシナリオで適用性を制限する。
これらの制約に対処するため,我々は8,036個の食品サンプルからなる総合的なマルチモーダルデータセットであるOmniFood8Kを紹介した。
さらに,栄養予測におけるモデルの能力を高めるため,栄養ラベルを正確に保存しながら組成変化を導入する大規模合成データセットであるNutritionSynth-115Kを構築した。
さらに,1枚のRGB画像から栄養予測を行うためのエンドツーエンドフレームワークを提案する。
まず,単一のRGB画像から深度マップを予測し,SSRA(Scale-Shift Residual Adapter)を設計し,グローバルスケールの一貫性と局所構造保存のために改良する。
第2に、周波数領域におけるRGBと深度の特徴を階層的に整列し、融合する周波数アラインド・フュージョン・モジュール(FAFM)を提案する。
最後に,Maskをベースとした予測ヘッド(MPH)を設計し,動的チャネル選択による重要成分領域の強調を行い,より正確な予測を行う。
複数のデータセットに対する大規模な実験は、既存のアプローチよりも提案手法の優位性を実証している。
プロジェクトホームページ:https://yudongjian.github.io/OmniFood8K-food/
関連論文リスト
- V-Nutri: Dish-Level Nutrition Estimation from Egocentric Cooking Videos [12.073311694888687]
本研究では,エゴセントリックな調理ビデオから得られる調理プロセス情報が,食器レベルの栄養評価に寄与するかどうかを検討する。
本稿では,Nutrition5Kを前提とした視覚バックボーンと軽量核融合モジュールを組み合わせたフレームワークであるV-Nutriを提案する。
HD-EPICデータセットの実験では、プロセスキューが相補的な栄養的証拠を提供し、制御された条件下での栄養的推定を改善することが示されている。
論文 参考訳(メタデータ) (2026-04-13T18:04:58Z) - Real-Time Cooked Food Image Synthesis and Visual Cooking Progress Monitoring on Edge Devices [4.373318192668093]
オーブンをベースとした最初の調理プログレスデータセットを,シェフのドキュメンテーションレベルで紹介した。
生の食品画像に条件付けされたリアルな食品イメージを合成するエッジ効率のレシピと調理状態ガイドジェネレータを提案する。
論文 参考訳(メタデータ) (2025-11-21T05:38:15Z) - Advancing Food Nutrition Estimation via Visual-Ingredient Feature Fusion [69.84988999191343]
我々はファストフード(FastFood)について紹介する。ファストフード(FastFood)は、908のファストフードカテゴリーに84,446のイメージを持つデータセットで、成分や栄養のアノテーションが特徴である。
栄養推定の精度を高めるために,新しいモデル非依存型ビジュアル・イングレディエント・フィーチャー・フュージョン (VIF$2$) 法を提案する。
論文 参考訳(メタデータ) (2025-05-13T17:01:21Z) - NutritionVerse-Synth: An Open Access Synthetically Generated 2D Food
Scene Dataset for Dietary Intake Estimation [71.22646949733833]
大規模な合成食品画像データセットであるNutritionVerse-Synth(NV-Synth)を紹介する。
NV-Synthは7,082枚の動的3Dシーンからレンダリングされた84,984枚のフォトリアリスティックな食事画像を含んでいる。
オープンソースで最大の合成食品データセットであるNV-Synthは、物理学に基づくシミュレーションの価値を強調している。
論文 参考訳(メタデータ) (2023-12-11T08:15:49Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - UMDFood: Vision-language models boost food composition compilation [26.5694236976957]
本稿では, 食品組成プロファイルを正確に推定するために, フロント・オブ・パッケージ・ラベリングと製品画像を用いた新しい視覚言語モデル, UMDFood-VLを提案する。
化学分析結果とモデル推定結果の誤差の最大82.2%は10%未満である。
この性能は、他の食品および栄養関連データコンパイルと触媒化への一般化に光を当てている。
論文 参考訳(メタデータ) (2023-05-18T03:18:12Z) - Towards the Creation of a Nutrition and Food Group Based Image Database [58.429385707376554]
栄養・食品群に基づく画像データベースを構築するための枠組みを提案する。
米国農務省食品栄養データベース(FNDDS)における食品群に基づく食品コードリンクプロトコルを設計する。
提案手法は16,114個の食品データセットを含む栄養・食品群に基づく画像データベースを構築するために用いられる。
論文 参考訳(メタデータ) (2022-06-05T02:41:44Z) - An End-to-End Food Image Analysis System [8.622335099019214]
食品の局所化, 分類, 部分サイズ推定を統合した画像に基づく食品分析フレームワークを提案する。
提案するフレームワークはエンドツーエンドであり,複数の食品を含む任意の食品画像として入力することができる。
本研究の枠組みは,栄養摂食調査から収集した実生活食品画像データセットを用いて評価する。
論文 参考訳(メタデータ) (2021-02-01T05:36:20Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。