論文の概要: ImageNetVC: Zero-Shot Visual Commonsense Evaluation on 1000 ImageNet
Categories
- arxiv url: http://arxiv.org/abs/2305.15028v1
- Date: Wed, 24 May 2023 11:14:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-25 16:36:03.798993
- Title: ImageNetVC: Zero-Shot Visual Commonsense Evaluation on 1000 ImageNet
Categories
- Title(参考訳): imagenetvc:1000のimagenetカテゴリにおけるゼロショットビジュアルコモンセンスの評価
- Authors: Heming Xia, Qingxiu Dong, Lei Li, Jingjing Xu, Ziwei Qin, Zhifang Sui
- Abstract要約: ゼロショットビジュアル・コモンセンス評価のための細粒度人間アノテーション付きデータセットであるImageNetVCを提案する。
単調なPLMとVaLMの両方の基本的な視覚的常識知識を探求し、スケーリング法則とVaLMに対するバックボーンモデルの影響を明らかにする。
- 参考スコア(独自算出の注目度): 28.85710221108434
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Pretrained Language Models (PLMs) have been serving as
general-purpose interfaces, posing a significant demand for comprehensive
visual knowledge. However, it remains unclear how well current PLMs and their
visually augmented counterparts (VaLMs) can master visual commonsense
knowledge. To investigate this, we propose ImageNetVC, a fine-grained,
human-annotated dataset specifically designed for zero-shot visual commonsense
evaluation across 1,000 ImageNet categories. Utilizing ImageNetVC, we delve
into the fundamental visual commonsense knowledge of both unimodal PLMs and
VaLMs, uncovering the scaling law and the influence of the backbone model on
VaLMs. Furthermore, we investigate the factors affecting the visual commonsense
knowledge of large-scale models, providing insights into the development of
language models enriched with visual commonsense knowledge. Our code and
dataset are available at https://github.com/hemingkx/ImageNetVC.
- Abstract(参考訳): 近年,PLM(Pretrained Language Models)が汎用インタフェースとして機能し,包括的視覚的知識の需要が高まっている。
しかしながら、現在のPLMとその視覚的拡張型(VaLM)が視覚的常識知識をどの程度習得できるかは不明である。
そこで本研究では,1,000のイメージネットカテゴリを対象としたゼロショット視覚的コモンセンス評価のための,詳細な人間アノテーション付きデータセットであるImageNetVCを提案する。
ImageNetVCを利用することで、単調なPLMとVaLMの両方の基本的な視覚的常識知識を探求し、スケーリング法則とVaLMに対するバックボーンモデルの影響を明らかにする。
さらに,大規模モデルの視覚コモンセンス知識に影響を与える要因について検討し,視覚コモンセンス知識に富んだ言語モデルの開発に関する知見を提供する。
私たちのコードとデータセットはhttps://github.com/hemingkx/imagenetvc.com/で利用可能です。
関連論文リスト
- MIVC: Multiple Instance Visual Component for Visual-Language Models [46.869139462026]
様々な画像入力間のギャップを、市販の視覚言語モデルで埋める汎用のマルチインスタンスビジュアルコンポーネントMIVCを提案する。
視覚的質問応答,分類,キャプションタスクにおいて,MIVCを視覚言語モデルにプラグインすることで,モデル性能を一貫した改善が可能であることを示す。
論文 参考訳(メタデータ) (2023-12-28T16:33:32Z) - VCoder: Versatile Vision Encoders for Multimodal Large Language Models [46.95488342139727]
MLLM(Multimodal Large Language Models)は近年,視覚言語タスクにおける優れたパフォーマンスを実現している。
しかし、ある画像内のエンティティを識別またはカウントするよう促された場合、既存のMLLMシステムは失敗する。
We propose using Versatile vision enCoders (VCoder) as perception eyes for Multimodal LLMs。
論文 参考訳(メタデータ) (2023-12-21T18:49:47Z) - Visual Data-Type Understanding does not emerge from Scaling
Vision-Language Models [31.69213233651326]
視覚データ型識別の新しい課題について紹介する。
39の視覚言語モデル(VLM)の広範囲なゼロショット評価は、微妙なパフォーマンスランドスケープを示している。
論文 参考訳(メタデータ) (2023-10-12T17:59:30Z) - Understanding ME? Multimodal Evaluation for Fine-grained Visual
Commonsense [98.70218717851665]
モデルが、限られた評価データ資源のために、視覚的シーンと基礎となるコモンセンス知識を本当に理解しているかどうかは不明だ。
本稿では,視覚シーン,テキスト,関連知識に対するモデルの理解をテストするために,質問応答ペアを自動的に生成するマルチモーダル評価(ME)パイプラインを提案する。
次に、MEデータによるトレーニングが標準VCR評価におけるモデルの性能を高めることを示すために、さらに一歩踏み出します。
論文 参考訳(メタデータ) (2022-11-10T21:44:33Z) - Exploring CLIP for Assessing the Look and Feel of Images [87.97623543523858]
ゼロショット方式で画像の品質知覚(ルック)と抽象知覚(フィール)の両方を評価するために,コントラスト言語-画像事前学習(CLIP)モデルを導入する。
以上の結果から,CLIPは知覚的評価によく適合する有意義な先行情報を捉えることが示唆された。
論文 参考訳(メタデータ) (2022-07-25T17:58:16Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Towards Automatic Parsing of Structured Visual Content through the Use
of Synthetic Data [65.68384124394699]
本研究では,構造化ビジュアルコンテンツ(Structured Visual Content, SVC)を画像と地上の真実の形で含む合成データセットを提案する。
本稿では、SVC画像からグラフ表現を自動的に抽出するアプリケーションによる、このデータセットの使用例を示す。
我々のデータセットは、時間を要する高密度データアノテーションをスキップしながら、SVCの解釈のための強力なモデルの開発を可能にする。
論文 参考訳(メタデータ) (2022-04-29T14:44:52Z) - K-LITE: Learning Transferable Visual Models with External Knowledge [242.3887854728843]
K-LITE (Knowledge-augmented Language- Image Training and Evaluation) は、外部知識を活用して伝達可能な視覚システムを構築する戦略である。
トレーニングでは、WordNetとWiktionaryの知識で自然言語のエンティティを豊かにする。
評価において、自然言語は外部知識で拡張され、学習された視覚概念を参照するために使用される。
論文 参考訳(メタデータ) (2022-04-20T04:47:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。