Fugu-MT 論文翻訳(概要): Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models

論文の概要: Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models

arxiv url: http://arxiv.org/abs/2308.03151v1
Date: Sun, 6 Aug 2023 15:56:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-08 16:20:32.507877
Title: Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating Vision-Language Models
Title（参考訳）: food-500 cap:視覚言語モデル評価のための細粒度食品キャプションベンチマーク
Authors: Zheng Ma, Mianzhi Pan, Wenhan Wu, Kanzhi Cheng, Jianbing Zhang, Shujian Huang and Jiajun Chen
Abstract要約: 視覚言語モデル(VLM)は、かなり下流のマルチモーダルタスクにおいて顕著な性能を示している。しかし、下流タスクの微調整性能を比較するだけで、VLMの解釈性は低下する。本稿では,食品分野における一般的なVLMの能力について包括的に検討する。
参考スコア（独自算出の注目度）: 37.01210143642867
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision-language models (VLMs) have shown impressive performance in substantial downstream multi-modal tasks. However, only comparing the fine-tuned performance on downstream tasks leads to the poor interpretability of VLMs, which is adverse to their future improvement. Several prior works have identified this issue and used various probing methods under a zero-shot setting to detect VLMs' limitations, but they all examine VLMs using general datasets instead of specialized ones. In practical applications, VLMs are usually applied to specific scenarios, such as e-commerce and news fields, so the generalization of VLMs in specific domains should be given more attention. In this paper, we comprehensively investigate the capabilities of popular VLMs in a specific field, the food domain. To this end, we build a food caption dataset, Food-500 Cap, which contains 24,700 food images with 494 categories. Each image is accompanied by a detailed caption, including fine-grained attributes of food, such as the ingredient, shape, and color. We also provide a culinary culture taxonomy that classifies each food category based on its geographic origin in order to better analyze the performance differences of VLM in different regions. Experiments on our proposed datasets demonstrate that popular VLMs underperform in the food domain compared with their performance in the general domain. Furthermore, our research reveals severe bias in VLMs' ability to handle food items from different geographic regions. We adopt diverse probing methods and evaluate nine VLMs belonging to different architectures to verify the aforementioned observations. We hope that our study will bring researchers' attention to VLM's limitations when applying them to the domain of food or culinary cultures, and spur further investigations to address this issue.
Abstract（参考訳）: 視覚言語モデル(VLM)は、かなり下流のマルチモーダルタスクにおいて顕著な性能を示している。しかし、下流タスクの微調整性能を比較するだけで、VLMの解釈性は低下し、今後の改善に悪影響を及ぼす。いくつかの先行研究がこの問題を特定し、VLMの制限を検出するためにゼロショット設定で様々な探索手法を用いているが、これらは全て、特殊なデータセットの代わりに一般的なデータセットを用いてVLMを調べる。実践的な応用では、VLMは電子商取引やニュース分野など特定のシナリオに適用されることが多いため、特定の分野におけるVLMの一般化には注意が必要である。本稿では,食品分野における一般的なVLMの能力について包括的に検討する。この目的のために,食品キャプションデータセットであるfood-500 capを構築し,494のカテゴリを持つ24,700の食品画像を含む。それぞれの画像には、具材、形、色などの食品の細かな属性を含む詳細なキャプションが添えられている。また,それぞれの食品カテゴリを地理的起源に基づいて分類し,異なる地域におけるvlmの性能差をよりよく解析する,料理文化分類も提供する。提案したデータセットを用いた実験により, 食品分野におけるVLMの性能は一般分野と比較して低かった。さらに,本研究は,VLMが地域によって異なる食品を扱う能力に重大なバイアスがあることを明らかにする。本研究では,異なるアーキテクチャに属する9つのVLMを評価し,その検証を行う。我々の研究は、VLMが食品や食文化の領域に応用する際の限界に研究者の注意を向け、この問題に対処するためのさらなる調査を促すことを願っている。

関連論文リスト

Hidden in plain sight: VLMs overlook their visual representations [48.83628674170634]
視覚言語モデル(VLM)と視覚エンコーダを比較し、これらのモダリティをまたいで統合する能力を理解する。 VLMは視覚エンコーダよりも著しく性能が悪く、近距離性能に低下することがわかった。
論文参考訳（メタデータ） (2025-06-09T17:59:54Z)
Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文参考訳（メタデータ） (2025-04-22T17:38:01Z)
GEOBench-VLM: Benchmarking Vision-Language Models for Geospatial Tasks [84.86699025256705]
本稿では,地理空間的タスクの視覚言語モデル(VLM)を評価するためのベンチマークであるGEOBench-VLMを提案する。私たちのベンチマークでは、手動で検証された命令が1万以上あり、さまざまな視覚条件、オブジェクトタイプ、スケールにまたがっています。地理空間固有の課題における性能を評価するために,いくつかの最先端のVLMを評価した。
論文参考訳（メタデータ） (2024-11-28T18:59:56Z)
MetaFood3D: Large 3D Food Object Dataset with Nutrition Values [53.24500333363066]
このデータセットは、詳細な栄養情報、体重、および包括的栄養データベースに関連付けられた食品コードを含む、108カテゴリにわたる637の細かな3D食品オブジェクトから成っている。実験の結果、我々のデータセットがアルゴリズムの性能を向上させる重要な可能性を実証し、ビデオキャプチャと3Dスキャンされたデータの間の困難さを強調し、高品質なデータ生成、シミュレーション、拡張におけるMetaFood3Dデータセットの強みを示した。
論文参考訳（メタデータ） (2024-09-03T15:02:52Z)
FoodieQA: A Multimodal Dataset for Fine-Grained Understanding of Chinese Food Culture [60.51749998013166]
中国各地の食文化の複雑な特徴を,手作業でキュレートした,きめ細かい画像テキストデータセットであるFoodieQAを紹介した。視覚言語モデル(VLM)と大規模言語モデル(LLM)を,新たに収集した未確認食品画像およびそれに対応する質問に対して評価する。以上の結果から,食品とその文化的意味の理解は依然として困難かつ未解明の方向にあることが示唆された。
論文参考訳（メタデータ） (2024-06-16T17:59:32Z)
From Canteen Food to Daily Meals: Generalizing Food Recognition to More Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文参考訳（メタデータ） (2024-03-12T08:32:23Z)
Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文参考訳（メタデータ） (2024-02-20T18:57:34Z)
FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文参考訳（メタデータ） (2023-12-22T11:56:22Z)
Benchmarking Zero-Shot Recognition with Vision-Language Models: Challenges on Granularity and Specificity [45.86789047206224]
本稿では,ゼロショット認識における視覚言語モデル(VLM)の評価のための新しいベンチマークを提案する。我々のベンチマークは、意味的粒度レベルにおける概念理解におけるVLMの一貫性と、テキストの特異性に対する応答を検証した。発見によると、VLMは微粒な概念を適度に好み、特異性に苦しむ。
論文参考訳（メタデータ） (2023-06-28T09:29:06Z)
ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文参考訳（メタデータ） (2020-08-13T02:48:27Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。