論文の概要: Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2308.03151v1
- Date: Sun, 6 Aug 2023 15:56:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-08 16:20:32.507877
- Title: Food-500 Cap: A Fine-Grained Food Caption Benchmark for Evaluating
Vision-Language Models
- Title(参考訳): food-500 cap:視覚言語モデル評価のための細粒度食品キャプションベンチマーク
- Authors: Zheng Ma, Mianzhi Pan, Wenhan Wu, Kanzhi Cheng, Jianbing Zhang,
Shujian Huang and Jiajun Chen
- Abstract要約: 視覚言語モデル(VLM)は、かなり下流のマルチモーダルタスクにおいて顕著な性能を示している。
しかし、下流タスクの微調整性能を比較するだけで、VLMの解釈性は低下する。
本稿では,食品分野における一般的なVLMの能力について包括的に検討する。
- 参考スコア(独自算出の注目度): 37.01210143642867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models (VLMs) have shown impressive performance in
substantial downstream multi-modal tasks. However, only comparing the
fine-tuned performance on downstream tasks leads to the poor interpretability
of VLMs, which is adverse to their future improvement. Several prior works have
identified this issue and used various probing methods under a zero-shot
setting to detect VLMs' limitations, but they all examine VLMs using general
datasets instead of specialized ones. In practical applications, VLMs are
usually applied to specific scenarios, such as e-commerce and news fields, so
the generalization of VLMs in specific domains should be given more attention.
In this paper, we comprehensively investigate the capabilities of popular VLMs
in a specific field, the food domain. To this end, we build a food caption
dataset, Food-500 Cap, which contains 24,700 food images with 494 categories.
Each image is accompanied by a detailed caption, including fine-grained
attributes of food, such as the ingredient, shape, and color. We also provide a
culinary culture taxonomy that classifies each food category based on its
geographic origin in order to better analyze the performance differences of VLM
in different regions. Experiments on our proposed datasets demonstrate that
popular VLMs underperform in the food domain compared with their performance in
the general domain. Furthermore, our research reveals severe bias in VLMs'
ability to handle food items from different geographic regions. We adopt
diverse probing methods and evaluate nine VLMs belonging to different
architectures to verify the aforementioned observations. We hope that our study
will bring researchers' attention to VLM's limitations when applying them to
the domain of food or culinary cultures, and spur further investigations to
address this issue.
- Abstract(参考訳): 視覚言語モデル(VLM)は、かなり下流のマルチモーダルタスクにおいて顕著な性能を示している。
しかし、下流タスクの微調整性能を比較するだけで、VLMの解釈性は低下し、今後の改善に悪影響を及ぼす。
いくつかの先行研究がこの問題を特定し、VLMの制限を検出するためにゼロショット設定で様々な探索手法を用いているが、これらは全て、特殊なデータセットの代わりに一般的なデータセットを用いてVLMを調べる。
実践的な応用では、VLMは電子商取引やニュース分野など特定のシナリオに適用されることが多いため、特定の分野におけるVLMの一般化には注意が必要である。
本稿では,食品分野における一般的なVLMの能力について包括的に検討する。
この目的のために,食品キャプションデータセットであるfood-500 capを構築し,494のカテゴリを持つ24,700の食品画像を含む。
それぞれの画像には、具材、形、色などの食品の細かな属性を含む詳細なキャプションが添えられている。
また,それぞれの食品カテゴリを地理的起源に基づいて分類し,異なる地域におけるvlmの性能差をよりよく解析する,料理文化分類も提供する。
提案したデータセットを用いた実験により, 食品分野におけるVLMの性能は一般分野と比較して低かった。
さらに,本研究は,VLMが地域によって異なる食品を扱う能力に重大なバイアスがあることを明らかにする。
本研究では,異なるアーキテクチャに属する9つのVLMを評価し,その検証を行う。
我々の研究は、VLMが食品や食文化の領域に応用する際の限界に研究者の注意を向け、この問題に対処するためのさらなる調査を促すことを願っている。
関連論文リスト
- Bridge the Modality and Capacity Gaps in Vision-Language Model Selection [60.049430086731846]
視覚言語モデル(VLM)は、画像とテキストのカテゴリ名とのペアリングによるゼロショット画像分類において優れている。
望まれるゼロショット画像分類戦略は、VLM動物園から最も適切な事前訓練VLMを選択することである。
本稿では,この言語のみのVLM選択において,VLMの能力を評価する上での2つの課題について分析する。
本稿では,これら2つのギャップの負の影響を軽減するために,gAp Bridging (SWAB)によるVLM選択を提案する。
論文 参考訳(メタデータ) (2024-03-20T17:54:58Z) - From Canteen Food to Daily Meals: Generalizing Food Recognition to More
Practical Scenarios [92.58097090916166]
DailyFood-172とDailyFood-16という2つの新しいベンチマークを、毎日の食事から食のイメージをキュレートする。
これらの2つのデータセットは、よく計算された食品画像領域から日常的な食品画像領域へのアプローチの伝達性を評価するために使用される。
論文 参考訳(メタデータ) (2024-03-12T08:32:23Z) - Exploring the Frontier of Vision-Language Models: A Survey of Current Methodologies and Future Directions [11.786387517781328]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といった複雑なタスクに対処できる高度なモデルである。
我々の分類では、VLMを視覚言語理解専用のモデル、マルチモーダル入力を処理するモデル、マルチモーダル入力とアウトプットの両方を受け付け、生成するモデルという3つのカテゴリに分類する。
我々は各モデルを慎重に識別し、基礎となるアーキテクチャ、データソースのトレーニング、および可能な限りの強度と限界を広範囲に分析する。
論文 参考訳(メタデータ) (2024-02-20T18:57:34Z) - FoodLMM: A Versatile Food Assistant using Large Multi-modal Model [96.76271649854542]
大規模マルチモーダルモデル(LMM)は多くの視覚言語タスクにおいて顕著な進歩を遂げている。
本稿では,多機能なLMMに基づく多目的食品アシスタントであるFoodLMMを提案する。
本稿では,食品の栄養価と複数のセグメンテーションマスクを予測するために,一連の新しいタスク固有のトークンとヘッドを導入する。
論文 参考訳(メタデータ) (2023-12-22T11:56:22Z) - Evaluating VLMs for Score-Based, Multi-Probe Annotation of 3D Objects [73.50105018389958]
ラベルのない3Dオブジェクトは、様々なアノテーションタスクで事前訓練された視覚言語モデル(VLM)を利用する機会を提供する。
提案手法は, VLM のスコアをサンプル応答に用いて, VLM の問合せ毎に異なる因子を疎外する手法である。
論文 参考訳(メタデータ) (2023-11-29T17:54:22Z) - ViCor: Bridging Visual Understanding and Commonsense Reasoning with
Large Language Models [30.065805195156994]
視覚コモンセンス推論(VCR)のための事前学習型視覚言語モデル(VLM)と大規模言語モデル(LLM)の相乗的機能について検討する。
ViCor と名付けられた本手法では,事前学習した LLM が問題分類器として機能し,問題カテゴリを解析する。
2つのVCRベンチマークデータセット上でのフレームワークの評価を行い、ドメイン内教師あり微調整を必要としない他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-10-09T17:10:35Z) - ISIA Food-500: A Dataset for Large-Scale Food Recognition via Stacked
Global-Local Attention Network [50.7720194859196]
ウィキペディアのリストから500のカテゴリと399,726の画像を含むデータセットISIA Food-500を紹介する。
このデータセットは、既存の一般的なベンチマークデータセットをカテゴリカバレッジとデータボリュームで上回る。
食品認識のための2つのサブネットワークからなるグローバルローカルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2020-08-13T02:48:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。