論文の概要: ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000
ImageNet Categories
- arxiv url: http://arxiv.org/abs/2305.15028v2
- Date: Fri, 20 Oct 2023 20:41:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 09:09:43.607503
- Title: ImageNetVC: Zero- and Few-Shot Visual Commonsense Evaluation on 1000
ImageNet Categories
- Title(参考訳): ImageNetVC: 1000のImageNetカテゴリのゼロとFew-Shotビジュアルコモンセンス評価
- Authors: Heming Xia, Qingxiu Dong, Lei Li, Jingjing Xu, Tianyu Liu, Ziwei Qin,
Zhifang Sui
- Abstract要約: 大規模言語モデル (LLM) は汎用インタフェースとして機能しており、包括的な視覚的知識の需要が著しく高まっている。
ゼロ画像と少数画像のコモンセンス評価に特化して設計されたデータセットであるImageNetVCを提案する。
我々は、一元的LLMと視覚的に拡張されたLLMの両方の基本的な視覚的常識知識をベンチマークする。
- 参考スコア(独自算出の注目度): 50.51976425891379
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Large Language Models (LLMs) have been serving as general-purpose
interfaces, posing a significant demand for comprehensive visual knowledge.
However, it remains unclear how well current LLMs and their visually augmented
counterparts (VaLMs) can master visual commonsense knowledge. To investigate
this, we propose ImageNetVC, a human-annotated dataset specifically designed
for zero- and few-shot visual commonsense evaluation across 1,000 ImageNet
categories. Utilizing ImageNetVC, we benchmark the fundamental visual
commonsense knowledge of both unimodal LLMs and VaLMs. Furthermore, we analyze
the factors affecting the visual commonsense knowledge of large-scale models,
providing insights into the development of language models enriched with visual
commonsense knowledge. Our code and dataset are available at
https://github.com/hemingkx/ImageNetVC.
- Abstract(参考訳): 近年,Large Language Models (LLM) は汎用インタフェースとして機能し,包括的視覚的知識の需要が高まっている。
しかし、現在のLLMと、その視覚的に拡張されたVaLMが、ビジュアルコモンセンス知識をどの程度習得できるかは定かではない。
そこで本研究では,1000のイメージネットカテゴリを対象に,ゼロおよび少数ショットの視覚的コモンセンス評価用に設計された人称アノテートデータセットであるImageNetVCを提案する。
ImageNetVCを利用することで、単調なLLMとVaLMの両方の基本的な視覚的常識知識をベンチマークする。
さらに,大規模モデルの視覚コモンセンス知識に影響を与える要因を分析し,視覚コモンセンス知識に富んだ言語モデルの開発への洞察を提供する。
私たちのコードとデータセットはhttps://github.com/hemingkx/imagenetvc.com/で利用可能です。
関連論文リスト
- MIVC: Multiple Instance Visual Component for Visual-Language Models [46.869139462026]
様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T16:33:32Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Towards Automatic Parsing of Structured Visual Content through the Use
of Synthetic Data [65.68384124394699]
本研究では,構造化ビジュアルコンテンツ(Structured Visual Content, SVC)を画像と地上の真実の形で含む合成データセットを提案する。
本稿では、SVC画像からグラフ表現を自動的に抽出するアプリケーションによる、このデータセットの使用例を示す。
我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
論文 参考訳(メタデータ) (2022-04-29T14:44:52Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。