論文の概要: FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture
- arxiv url: http://arxiv.org/abs/2406.11030v2
- Date: Mon, 30 Sep 2024 09:03:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 12:53:18.902687
- Title: FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture
- Title(参考訳): FoodieQA:中国食文化の細粒度理解のためのマルチモーダルデータセット
- Authors: Wenyan Li, Xinyu Zhang, Jiaang Li, Qiwei Peng, Raphael Tang, Li Zhou, Weijia Zhang, Guimin Hu, Yifei Yuan, Anders Søgaard, Daniel Hershcovich, Desmond Elliott,
- Abstract要約: 中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
- 参考スコア(独自算出の注目度): 60.51749998013166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Food is a rich and varied dimension of cultural heritage, crucial to both individuals and social groups. To bridge the gap in the literature on the often-overlooked regional diversity in this domain, we introduce FoodieQA, a manually curated, fine-grained image-text dataset capturing the intricate features of food cultures across various regions in China. We evaluate vision-language Models (VLMs) and large language models (LLMs) on newly collected, unseen food images and corresponding questions. FoodieQA comprises three multiple-choice question-answering tasks where models need to answer questions based on multiple images, a single image, and text-only descriptions, respectively. While LLMs excel at text-based question answering, surpassing human accuracy, the open-sourced VLMs still fall short by 41% on multi-image and 21% on single-image VQA tasks, although closed-weights models perform closer to human levels (within 10%). Our findings highlight that understanding food and its cultural implications remains a challenging and under-explored direction.
- Abstract(参考訳): 食品は豊かな文化的遺産であり、個人と社会団体の両方にとって不可欠である。
そこで本研究では,中国各地の食文化の複雑な特徴を手作業で収集した,きめ細かな画像テキストデータセットであるFoodieQAを紹介した。
視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。
FoodieQAは、複数の画像と1つの画像とテキストのみの記述に基づいて、モデルがそれぞれ質問に答える必要がある3つの多重選択質問回答タスクで構成されている。
LLMはテキストベースの質問応答に優れ、人間の精度を上回るが、オープンソースのVLMはマルチイメージでは41%、シングルイメージのVQAタスクでは21%が不足している。
以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
関連論文リスト
- World in a Frame: Understanding Culture Mixing as a New Challenge for Vision-Language Models [41.385606397781714]
大規模視覚・言語モデルが文化混合のシナリオをどのように知覚するかを考察する。
食品ビジュアル質問回答 (VQA) ベンチマークである CultureMix を用いて,23k の拡散生成,人間による検証,画像の混合を行う。
個別の文化的アイデンティティを混在した環境で保存する一貫した失敗を見出す。
論文 参考訳(メタデータ) (2025-11-27T22:23:08Z) - LLMs-based Augmentation for Domain Adaptation in Long-tailed Food Datasets [54.527878056610156]
食品認識におけるこれらの課題に対処するために,大規模言語モデル(LLM)を用いた枠組みを提案する。
まず LLM を利用して食品イメージを解析し,食品のタイトルや材料を生成する。
そして、生成したテキストと食品の画像を異なるドメインから共有埋め込み空間に投影し、ペアの類似性を最大化する。
論文 参考訳(メタデータ) (2025-11-20T04:38:56Z) - Thought-For-Food: Reasoning Chain Induced Food Visual Question Answering [5.290249856411331]
食品VQAは、正確な答えに到達するためには、多段階の推論プロセスに従う必要がある。
人間の介入を最小限に抑えてQAに推論チェーンを作ります。
ベースラインでは平均10ポイントの精度向上が見られた。
論文 参考訳(メタデータ) (2025-11-03T04:13:24Z) - MultiFoodhat: A potential new paradigm for intelligent food quality inspection [7.966483944010341]
MultiFoodChatは、ゼロショット食品認識のための対話駆動型マルチエージェント推論フレームワークである。
Object Perception Token (OPT) はきめ細かい視覚特性を捉え、Interactive Reasoning Agent (IRA) は文脈的手がかりを動的に解釈して予測を洗練させる。
複数の公開食品データセットの実験により、MultiFoodChatは、既存の教師なしおよび少数ショットの手法と比較して、認識精度と解釈性に優れることを示した。
論文 参考訳(メタデータ) (2025-10-14T03:39:03Z) - BLEnD-Vis: Benchmarking Multimodal Cultural Understanding in Vision Language Models [54.16874020794336]
視覚言語モデル(VLM)における日常的文化的知識の堅牢性を評価するためのベンチマークであるBLEnD-Visを紹介する。
BLEnD-Visは16の領域にまたがる文化的根拠を持つ313の質問テンプレートを構築し、3つの整列した複数選択形式を生成する。
その結果得られたベンチマークは、4,916の画像と、人間のアノテーションで検証された21,000以上のMultiple-choice Question (MCQ)インスタンスで構成されている。
論文 参考訳(メタデータ) (2025-10-13T09:10:05Z) - Are Vision-Language Models Ready for Dietary Assessment? Exploring the Next Frontier in AI-Powered Food Image Recognition [14.56988768403406]
VLM(Vision-Language Models)は、視覚的およびテキスト的推論を統合することで、新たな可能性を提供する。
本研究では,6種類の最先端VLMを評価し,その食品認識能力について異なるレベルで分析した。
実験フレームワークとして,9,263個の専門家ラベル付き画像を含むユニークな食品画像データベースであるFoodNExTDBを紹介する。
論文 参考訳(メタデータ) (2025-04-09T14:33:59Z) - WorldCuisines: A Massive-Scale Benchmark for Multilingual and Multicultural Visual Question Answering on Global Cuisines [74.25764182510295]
視覚言語モデル(VLM)は、特に英語以外の言語において、文化特有の知識に苦しむことが多い。
我々は多言語および多文化の視覚的理解のための大規模ベンチマークであるWorld Cuisinesを紹介した。
このベンチマークには、30の言語と方言にまたがるテキストイメージペアを備えた、視覚的質問応答(VQA)データセットが含まれている。
論文 参考訳(メタデータ) (2024-10-16T16:11:49Z) - MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。
実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文 参考訳(メタデータ) (2024-09-03T15:02:52Z) - FoodSky: A Food-oriented Large Language Model that Passes the Chef and Dietetic Examination [37.11551779015218]
食品データを理解するために食品指向の大規模言語モデル(LLM)を導入する。
中国料理の複雑さと典型性を考えると、我々はまず1つの総合的な中華料理コーパス「FoodEarth」を構築した。
そこで我々は,HTRAG(Herarchical Topic Retrieval Augmented Generation)機構とTS3M(Selective State Space Model)を提案する。
論文 参考訳(メタデータ) (2024-06-11T01:27:00Z) - CVQA: Culturally-diverse Multilingual Visual Question Answering Benchmark [68.21939124278065]
言語と文化の豊富なセットをカバーするために設計された、文化的に多言語なビジュアル質問回答ベンチマーク。
CVQAには文化的に駆動されたイメージと、4大陸30カ国の質問が含まれ、31の言語と13のスクリプトをカバーし、合計10万の質問を提供する。
CVQA上で複数のマルチモーダル大言語モデル (MLLM) をベンチマークし、現在の最先端モデルではデータセットが困難であることを示す。
論文 参考訳(メタデータ) (2024-06-10T01:59:00Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Cross-Modal Food Retrieval: Learning a Joint Embedding of Food Images
and Recipes with Semantic Consistency and Attention Mechanism [70.85894675131624]
画像とレシピを共通の特徴空間に埋め込み、対応する画像とレシピの埋め込みが互いに近接するように学習する。
本稿では,2つのモダリティの埋め込みを正規化するためのセマンティック・一貫性とアテンション・ベース・ネットワーク(SCAN)を提案する。
食品画像や調理レシピの最先端のクロスモーダル検索戦略を,かなりの差で達成できることが示される。
論文 参考訳(メタデータ) (2020-03-09T07:41:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。