論文の概要: MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance
- arxiv url: http://arxiv.org/abs/2508.10429v1
- Date: Thu, 14 Aug 2025 07:59:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-15 22:24:48.224765
- Title: MM-Food-100K: A 100,000-Sample Multimodal Food Intelligence Dataset with Verifiable Provenance
- Title(参考訳): MM-Food-100K:10万サンプルのマルチモーダルフードインテリジェンスデータセット
- Authors: Yi Dong, Yusuke Muraoka, Scott Shi, Yi Zhang,
- Abstract要約: MM-Food-100Kは10万サンプルのマルチモーダル食品インテリジェンスデータセットである。
オリジナル120万の食品画像の約10%のオープンサブセットをキュレートしたもので、さまざまな情報に注釈を付けた高品質の食品画像のコーパスである。
- 参考スコア(独自算出の注目度): 6.4116695607741105
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present MM-Food-100K, a public 100,000-sample multimodal food intelligence dataset with verifiable provenance. It is a curated approximately 10% open subset of an original 1.2 million, quality-accepted corpus of food images annotated for a wide range of information (such as dish name, region of creation). The corpus was collected over six weeks from over 87,000 contributors using the Codatta contribution model, which combines community sourcing with configurable AI-assisted quality checks; each submission is linked to a wallet address in a secure off-chain ledger for traceability, with a full on-chain protocol on the roadmap. We describe the schema, pipeline, and QA, and validate utility by fine-tuning large vision-language models (ChatGPT 5, ChatGPT OSS, Qwen-Max) on image-based nutrition prediction. Fine-tuning yields consistent gains over out-of-box baselines across standard metrics; we report results primarily on the MM-Food-100K subset. We release MM-Food-100K for publicly free access and retain approximately 90% for potential commercial access with revenue sharing to contributors.
- Abstract(参考訳): MM-Food-100Kは10万サンプルのマルチモーダル食品インテリジェンスデータセットである。
オリジナル120万の食品画像の約10%のオープンサブセットで、さまざまな情報(料理名、創作地域など)に注釈を付けた高品質の食品画像のコーパスである。
コーパスは、コミュニティソーシングと設定可能なAIアシスト品質チェックを組み合わせたコダッタコントリビューションモデルを使用して、87,000人以上のコントリビュータから6週間以上収集された。
画像ベース栄養予測において,ChatGPT,ChatGPT OSS,Qwen-Max,ChatGPT,ChatGPT,ChatGPT OSS,Qwen-Max)の大きな視覚言語モデルを用いて,スキーマ,パイプライン,QAを記述し,有効性を検証した。
ファインチューニングは,標準基準値のアウト・オブ・ボックスベースラインに対して一貫した利得を達成し,MM-Food-100Kサブセットで結果が得られた。
我々はMM-Food-100Kを公開フリーアクセス用にリリースし、コントリビュータへの収益分配を伴う商用アクセスの約90%を保持します。
関連論文リスト
- Personalized Recommendation of Dish and Restaurant Collections on iFood [36.17677121983085]
REDは、ラテンアメリカ最大のオンデマンドフードデリバリープラットフォームであるiFood向けに設計された自動レコメンデーションシステムである。
本手法では,3つの特徴群(コレクション特性,ユーザ・コレクションの類似性,コンテキスト情報)に基づいて,コレクションをスコアするLightGBM分類器を用いる。
論文 参考訳(メタデータ) (2025-08-05T17:34:19Z) - Evaluating Large Multimodal Models for Nutrition Analysis: A Benchmark Enriched with Contextual Metadata [6.474398074033423]
本稿では,公開予定の食品画像データセットであるACETADAを紹介する。
本研究は、文脈メタデータの解釈が、重要な栄養価を推定する際のLMM性能をいかに向上させるかを検討する。
実験結果から, 即時的プロンプト戦略によりメタデータをインテリジェントに統合すると, 栄養価の予測値において, 平均絶対誤差 (MAE) と平均絶対誤差 (MAPE) が著しく減少することが示された。
論文 参考訳(メタデータ) (2025-07-09T17:10:33Z) - Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition [14.56988768403406]
VLM(Vision-Language Models)は、視覚的およびテキスト的推論を統合することで、新たな可能性を提供する。
本研究では,6種類の最先端VLMを評価し,その食品認識能力について異なるレベルで分析した。
実験フレームワークとして,9,263個の専門家ラベル付き画像を含むユニークな食品画像データベースであるFoodNExTDBを紹介する。
論文 参考訳(メタデータ) (2025-04-09T14:33:59Z) - RoDE: Linear Rectified Mixture of Diverse Experts for Food Large Multi-Modal Models [96.43285670458803]
Uni-Foodは、さまざまな食品ラベルを持つ10万以上の画像からなる統合食品データセットである。
Uni-Foodは、食品データ分析に対するより包括的なアプローチを提供するように設計されている。
本稿では,食品関連マルチタスキングの課題に対処するため,新しいリニア・リクティフィケーション・ミックス・オブ・ディバース・エキスパート (RoDE) アプローチを提案する。
論文 参考訳(メタデータ) (2024-07-17T16:49:34Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - UMDFood: Vision-language models boost food composition compilation [26.5694236976957]
本稿では, 食品組成プロファイルを正確に推定するために, フロント・オブ・パッケージ・ラベリングと製品画像を用いた新しい視覚言語モデル, UMDFood-VLを提案する。
化学分析結果とモデル推定結果の誤差の最大82.2%は10%未満である。
この性能は、他の食品および栄養関連データコンパイルと触媒化への一般化に光を当てている。
論文 参考訳(メタデータ) (2023-05-18T03:18:12Z) - TASTEset -- Recipe Dataset and Food Entities Recognition Benchmark [1.0569625612398386]
NERモデルは、レシピの処理に役立つ様々なタイプのエンティティを発見または推測することが期待されている。
データセットは700のレシピで構成され、13,000以上のエンティティを抽出する。
私たちは、名前付きエンティティ認識モデルの最先端のベースラインをいくつか提供しています。
論文 参考訳(メタデータ) (2022-04-16T10:52:21Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。