論文の概要: Multimodal ML: Quantifying the Improvement of Calorie Estimation Through Image-Text Pairs
- arxiv url: http://arxiv.org/abs/2511.11705v1
- Date: Wed, 12 Nov 2025 15:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:23.016871
- Title: Multimodal ML: Quantifying the Improvement of Calorie Estimation Through Image-Text Pairs
- Title(参考訳): マルチモーダルML:画像テキストペアによるカロリー推定の改善の定量化
- Authors: Arya Narang,
- Abstract要約: 我々は、画像のみのCNNと、テキストと画像の両方を入力として受け入れるマルチモーダルCNNを訓練する。
カロリー推定のMAEは、マルチモーダルモデルを使用すると、1.06kcalから84.76kcalから83.70kcalに削減された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper determines the extent to which short textual inputs (in this case, names of dishes) can improve calorie estimation compared to an image-only baseline model and whether any improvements are statistically significant. Utilizes the TensorFlow library and the Nutrition5k dataset (curated by Google) to train both an image-only CNN and multimodal CNN that accepts both text and an image as input. The MAE of calorie estimations was reduced by 1.06 kcal from 84.76 kcal to 83.70 kcal (1.25% improvement) when using the multimodal model.
- Abstract(参考訳): 本稿では,画像のみのベースラインモデルと比較して,短いテキスト入力(この場合,料理の名前)がカロリー推定を改善できるか,あるいは統計的に有意な改善があるかどうかを判断する。
TensorFlowライブラリとNutrition5kデータセット(Googleが計算した)を使用して、画像のみのCNNと、テキストとイメージの両方を入力として受け入れるマルチモーダルCNNの両方をトレーニングする。
カロリー推定のMAEは、マルチモーダルモデルを使用する場合、1.06kcalを84.76kcalから83.70kcal(1.25%改善)に削減した。
関連論文リスト
- Parameter-Inverted Image Pyramid Networks for Visual Perception and Multimodal Understanding [49.218195440600354]
現在の画像ピラミッドは、複数の解像度を処理するために同じ大規模なモデルを使用しており、計算コストを大幅に上回っている。
我々はCOCO変換画像ピラミッドネットワーク(PIIP)と呼ばれる新しいネットワークアーキテクチャを提案する。
PIIPは、事前訓練されたモデル(ViTまたはCNN)を、より小さなネットワークブランチによって高解像度の画像が処理され、計算コストと性能のバランスをとるマルチスケールイメージの処理に使用する。
論文 参考訳(メタデータ) (2025-01-14T01:57:41Z) - Normalizing Flow-Based Metric for Image Generation [4.093503153499691]
正規化フローに基づいて生成画像の現実性を評価するための2つの新しい評価指標を提案する。
正規化フローは正確な確率を計算するために使用できるため、提案したメトリクスは、与えられた領域からの実際の画像の分布とどのように密接に一致しているかを評価する。
論文 参考訳(メタデータ) (2024-10-02T20:09:58Z) - Words Worth a Thousand Pictures: Measuring and Understanding Perceptual Variability in Text-to-Image Generation [58.77994391566484]
W1KPは、画像の集合における可変性の人間の校正尺度である。
最高の知覚距離は、9つの基準線を最大18ポイント精度で上回る。
実際のプロンプトの56の言語的特徴を分析し、プロンプトの長さ、CLIP埋め込みノルム、具体性、単語感覚が最も変動に影響を及ぼすことを示した。
論文 参考訳(メタデータ) (2024-06-12T17:59:27Z) - Exploring Discrete Diffusion Models for Image Captioning [104.69608826164216]
DDCapと呼ばれる拡散型キャプションモデルを提案する。
本稿では,ベストファースト推論,集中注意マスク,テキスト長予測,画像のないトレーニングなど,いくつかの重要な手法を提案する。
4Mビジョン言語による事前学習画像とベースサイズのモデルを用いて,COCO上のCIDErスコア125.1に達する。
論文 参考訳(メタデータ) (2022-11-21T18:12:53Z) - BEiT v2: Masked Image Modeling with Vector-Quantized Visual Tokenizers [117.79456335844439]
マスク付き予測のための再構成ターゲットとして,セマンティックリッチなビジュアルトークン化器を提案する。
次に、マスクされた画像パッチに対する元の視覚トークンを予測して、視覚変換器を事前訓練する。
画像分類とセマンティックセグメンテーションの実験は、我々のアプローチがMIM法よりも優れていることを示している。
論文 参考訳(メタデータ) (2022-08-12T16:48:10Z) - Large-Margin Representation Learning for Texture Classification [67.94823375350433]
本稿では,テクスチャ分類のための小さなデータセット上で教師付きモデルをトレーニングするために,畳み込み層(CL)と大規模計量学習を組み合わせた新しいアプローチを提案する。
テクスチャと病理画像データセットの実験結果から,提案手法は同等のCNNと比較して計算コストが低く,収束が早く,競争精度が向上することが示された。
論文 参考訳(メタデータ) (2022-06-17T04:07:45Z) - RecipeSnap -- a lightweight image-to-recipe model [4.776653798337577]
We introduced a lightweight image-to-recipe prediction model, RecipeSnap, which is reduce memory cost and compute cost by 90% more to achieve 2.0 MedR。
Recipe1Mデータセットからのレシピとそれに対応するレシピの埋め込みはレシピライブラリとして収集される。
このモデルは、いくつかの努力で、スマートフォン用のアプリケーションにさらに発展させることができる。
論文 参考訳(メタデータ) (2022-05-04T15:49:52Z) - Calorie Aware Automatic Meal Kit Generation from an Image [7.170180366236038]
単一の調理画像から、カロリー推定と食事再現のためのパイプラインを提案する。
このモデルで導入されたポーション推定は、カロリー推定を改善するのに役立ち、異なるサービスサイズでの食事の再生産にも有用である。
論文 参考訳(メタデータ) (2021-12-18T04:16:12Z) - End-to-End Supermask Pruning: Learning to Prune Image Captioning Models [17.00974730372399]
80%から95%のスパースネットワークが、その密度の高いネットワークにマッチするか、より優れているかを示す。
Up-Down と Object Relation Transformer のコードと事前訓練されたモデルは、MS-COCO データセット上で CIDEr スコア >120 を達成することができる。
論文 参考訳(メタデータ) (2021-10-07T09:34:00Z) - Multi-Task Learning for Calorie Prediction on a Novel Large-Scale Recipe
Dataset Enriched with Nutritional Information [25.646488178514186]
本研究は,インターネット上でのレシピの学習により,画像から直接食事のカロリー量を推定することを目的とする。
写真,材料,指示を含む70,000以上のレシピから308,000枚の画像からなるpic2kcalベンチマークを提案する。
実験により, マルチタスク学習によるカロリー推定のメリットが明らかとなり, シングルタスクのカロリー回帰を9.9%上回った。
論文 参考訳(メタデータ) (2020-11-02T16:11:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。