論文の概要: Investigating the Impact of Large-Scale Pre-training on Nutritional Content Estimation from 2D Images
- arxiv url: http://arxiv.org/abs/2508.03996v1
- Date: Wed, 06 Aug 2025 00:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-07 20:09:22.488326
- Title: Investigating the Impact of Large-Scale Pre-training on Nutritional Content Estimation from 2D Images
- Title(参考訳): 大規模事前学習が2次元画像からの栄養量推定に及ぼす影響の検討
- Authors: Michele Andrade, Guilherme A. L. Silva, Valéria Santos, Gladston Moreira, Eduardo Luz,
- Abstract要約: 画像から食物の栄養含量を推定することは、健康と食事のモニタリングに重要な意味を持つ重要な課題である。
本稿では,2次元画像のみを用いた栄養推定のためのディープラーニングモデルの性能に及ぼす大規模事前学習データセットの影響について検討する。
- 参考スコア(独自算出の注目度): 0.0699049312989311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Estimating the nutritional content of food from images is a critical task with significant implications for health and dietary monitoring. This is challenging, especially when relying solely on 2D images, due to the variability in food presentation, lighting, and the inherent difficulty in inferring volume and mass without depth information. Furthermore, reproducibility in this domain is hampered by the reliance of state-of-the-art methods on proprietary datasets for large-scale pre-training. In this paper, we investigate the impact of large-scale pre-training datasets on the performance of deep learning models for nutritional estimation using only 2D images. We fine-tune and evaluate Vision Transformer (ViT) models pre-trained on two large public datasets, ImageNet and COYO, comparing their performance against baseline CNN models (InceptionV2 and ResNet-50) and a state-of-the-art method pre-trained on the proprietary JFT-300M dataset. We conduct extensive experiments on the Nutrition5k dataset, a large-scale collection of real-world food plates with high-precision nutritional annotations. Our evaluation using Mean Absolute Error (MAE) and Mean Absolute Percentage Error (MAE%) reveals that models pre-trained on JFT-300M significantly outperform those pre-trained on public datasets. Unexpectedly, the model pre-trained on the massive COYO dataset performs worse than the model pre-trained on ImageNet for this specific regression task, refuting our initial hypothesis. Our analysis provides quantitative evidence highlighting the critical role of pre-training dataset characteristics, including scale, domain relevance, and curation quality, for effective transfer learning in 2D nutritional estimation.
- Abstract(参考訳): 画像から食物の栄養含量を推定することは、健康や食事のモニタリングに重要な意味を持つ。
これは、特に2次元画像のみに依存する場合、食品の提示、照明の変動、深度情報のない体積と質量の推測が本質的に困難であるためである。
さらに、この領域における再現性は、大規模事前学習のためのプロプライエタリなデータセットに対する最先端の手法への依存によって妨げられる。
本稿では,2次元画像のみを用いた栄養推定のためのディープラーニングモデルの性能に及ぼす大規模事前学習データセットの影響について検討する。
我々は、ImageNetとCOYOの2つの公開データセットで事前トレーニングされたビジョントランスフォーマー(ViT)モデルを、ベースラインのCNNモデル(InceptionV2とResNet-50)と、プロプライエタリなJFT-300Mデータセットで事前トレーニングされた最先端のメソッドと比較し、微調整し評価する。
我々は,高精度な栄養アノテーションを付加した実世界の食品プレートの大規模なコレクションであるNutrition5kデータセットについて広範な実験を行った。
平均絶対誤差 (MAE) と平均絶対誤差 (MAE%) を用いて評価した結果, JFT-300M で事前学習したモデルは, 公開データセットで事前学習したモデルよりも有意に優れていることがわかった。
予期せぬことに、大規模なCOYOデータセットで事前学習されたモデルは、この特定の回帰タスクのためにImageNetで事前訓練されたモデルよりもパフォーマンスが悪く、最初の仮説を否定する。
本分析は,2次元栄養学推定における効果的な伝達学習のための,スケール,ドメイン関連性,キュレーション品質など,事前学習データセット特性の重要な役割を明らかにする定量的な証拠を提供する。
関連論文リスト
- Slight Corruption in Pre-training Data Makes Better Diffusion Models [71.90034201302397]
拡散モデル(DM)は、高品質な画像、オーディオ、ビデオを生成する際、顕著な能力を示している。
DMは大規模なデータセットでの広範な事前トレーニングの恩恵を受ける。
しかしながら、事前トレーニングデータセットは、しばしば、データを正確に記述しないような、破損したペアを含んでいる。
本稿では,DMの事前学習データにそのような汚職が及ぼす影響について,初めて包括的研究を行った。
論文 参考訳(メタデータ) (2024-05-30T21:35:48Z) - NutritionVerse: Empirical Study of Various Dietary Intake Estimation Approaches [59.38343165508926]
食事の正確な摂取推定は、健康的な食事を支援するための政策やプログラムを伝える上で重要である。
最近の研究は、コンピュータービジョンと機械学習を使用して、食物画像から食事摂取を自動的に推定することに焦点を当てている。
我々は,84,984個の合成2D食品画像と関連する食事情報を用いた最初の大規模データセットであるNutritionVerse-Synthを紹介した。
また、リアルなイメージデータセットであるNutritionVerse-Realを収集し、リアル性を評価するために、251の料理の889のイメージを含む。
論文 参考訳(メタデータ) (2023-09-14T13:29:41Z) - On the Connection between Pre-training Data Diversity and Fine-tuning
Robustness [66.30369048726145]
下流の有効ロバスト性に影響を与える主な要因はデータ量である。
各種自然および合成データソースから抽出した事前学習分布について,本研究の成果を示す。
論文 参考訳(メタデータ) (2023-07-24T05:36:19Z) - Single-Stage Heavy-Tailed Food Classification [7.800379384628357]
そこで本研究では,新しい一段階のヘビーテール食品分類フレームワークを提案する。
本手法は,フード101-LTとVFN-LTの2つの重み付き食品ベンチマークデータセットを用いて評価した。
論文 参考訳(メタデータ) (2023-07-01T00:45:35Z) - Large-scale Dataset Pruning with Dynamic Uncertainty [28.60845105174658]
画像分類などの多くの学習タスクの最先端技術は、より大きなデータセットを収集して、より大きなモデルをトレーニングすることによって進歩している。
本稿では,大規模データセットの創出方法について検討し,非無視的な性能低下を伴う高度な深層モデルのトレーニングを行うための情報サブセットを作成する。
論文 参考訳(メタデータ) (2023-06-08T13:14:35Z) - Delving Deeper into Data Scaling in Masked Image Modeling [145.36501330782357]
視覚認識のためのマスク付き画像モデリング(MIM)手法のスケーリング能力に関する実証的研究を行った。
具体的には、Webで収集したCoyo-700Mデータセットを利用する。
我々のゴールは、データとモデルのサイズの異なるスケールでダウンストリームタスクのパフォーマンスがどのように変化するかを調べることです。
論文 参考訳(メタデータ) (2023-05-24T15:33:46Z) - The effectiveness of MAE pre-pretraining for billion-scale pretraining [65.98338857597935]
モデルの初期化には自己教師付きMAE技術を用いる。
画像分類, 映像認識, 物体検出, ローショット分類, ゼロショット認識にまたがる10種類の視覚的タスクに対して, 事前学習の有効性を評価する。
論文 参考訳(メタデータ) (2023-03-23T17:56:12Z) - The Role of Pre-training Data in Transfer Learning [20.768366728182997]
プレトレーニングデータ分布が複数ショットおよびフル微調整性能に与える影響について検討する。
プレトレーニングされたデータソースの選択は、数ショットの転送には不可欠であることがわかったが、その役割は微調整のためにより多くのデータが利用可能になるにつれて減少する。
論文 参考訳(メタデータ) (2023-02-27T09:10:08Z) - Self-Supervised Pre-Training for Transformer-Based Person
Re-Identification [54.55281692768765]
トランスフォーマーに基づく教師付き事前訓練は、人物再識別(ReID)において大きなパフォーマンスを達成する
ImageNetとReIDデータセットのドメインギャップのため、通常、パフォーマンスを高めるために、より大きなトレーニング済みデータセットが必要です。
この研究は、データとモデル構造の観点から、事前トレーニングデータセットとReIDデータセットのギャップを軽減することを目的としている。
論文 参考訳(メタデータ) (2021-11-23T18:59:08Z) - Effect of large-scale pre-training on full and few-shot transfer
learning for natural and medical images [2.030567625639093]
我々は,自然(ImageNet-21k/1k)と医用胸部X線画像のいずれにおいても,大規模な事前トレーニングを行う。
自然画像領域と医用画像領域の両方の異なるターゲットデータセットを用いて、フルショットと少数ショットの転送を比較した。
我々の観察は、近縁なデータセットの事前トレーニングと転送は、事前トレーニング中にモデルとデータサイズが増加するという明らかな利点を示すが、ソースとターゲットデータセットがさらに離れている場合、そのような利点は明らかでないことを示す。
論文 参考訳(メタデータ) (2021-05-31T21:55:56Z) - Self-Supervised Pretraining Improves Self-Supervised Pretraining [83.1423204498361]
自己教師付き事前トレーニングには、高価で長い計算と大量のデータが必要で、データ拡張に敏感である。
本稿では,既存の事前学習モデルを用いて事前学習プロセスを初期化することにより,収束時間を短縮し,精度を向上させる階層的事前学習(HPT)について検討する。
HPTが最大80倍速く収束し、タスク全体の精度が向上し、自己監視された事前トレーニングプロセスの堅牢性が、画像増強ポリシーまたは事前トレーニングデータの量の変化に改善されることを示します。
論文 参考訳(メタデータ) (2021-03-23T17:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。