論文の概要: VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations
- arxiv url: http://arxiv.org/abs/2207.00221v2
- Date: Thu, 22 Jun 2023 16:55:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 18:12:07.562809
- Title: VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations
- Title(参考訳): VL-CheckList: 対象,属性,関係を考慮した事前学習型視覚言語モデルの評価
- Authors: Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee,
Xiaopeng Lu, Jianwei Yin
- Abstract要約: Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
- 参考スコア(独自算出の注目度): 28.322824790738768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pretraining (VLP) models have recently successfully
facilitated many cross-modal downstream tasks. Most existing works evaluated
their systems by comparing the fine-tuned downstream task performance. However,
only average downstream task accuracy provides little information about the
pros and cons of each VLP method, let alone provides insights on how the
community can improve the systems in the future. Inspired by the CheckList for
testing natural language processing, we exploit VL-CheckList, a novel framework
to understand the capabilities of VLP models. The proposed method divides the
image-texting ability of a VLP model into three categories: objects,
attributes, and relations, and uses a novel taxonomy to further break down
these three aspects. We conduct comprehensive studies to analyze seven recently
popular VLP models via the proposed framework. Results confirm the
effectiveness of the proposed method by revealing fine-grained differences
among the compared models that were not visible from downstream task-only
evaluation. Further results show promising research direction in building
better VLP models. Our data and code are available at:
https://github.com/om-ai-lab/VL-CheckList.
- Abstract(参考訳): vision-language pretraining(vlp)モデルは、最近多くのクロスモーダルダウンストリームタスクをうまく促進しました。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
しかしながら、平均ダウンストリームタスク精度だけが、それぞれのVLPメソッドの長所と短所についてはほとんど情報を提供していない。
自然言語処理をテストするためにCheckListに触発された我々は、VLPモデルの能力を理解するための新しいフレームワークであるVL-CheckListを利用する。
提案手法は,VLPモデルの画像テキスト化能力をオブジェクト,属性,関係の3つのカテゴリに分割し,これら3つの側面をさらに分解するために新しい分類法を用いる。
提案手法を用いて,最近普及している7つのVLPモデルの解析を行う。
提案手法の有効性は,下流のタスクのみの評価では見えなかった比較モデル間でのきめ細かい相違を明らかにすることで検証した。
さらなる結果は、より良いVLPモデルを構築するための有望な研究方向を示す。
私たちのデータとコードは、https://github.com/om-ai-lab/VL-CheckList.comで利用可能です。
関連論文リスト
- Probing Visual Language Priors in VLMs [51.016683265437536]
我々は,意図的に分布外画像を特徴付けるベンチマークであるViLPを紹介した。
ViLPの各質問には、3つの潜在的な答えと3つの対応するイメージが結合される。
本稿では,モデルが新たなVQAデータを生成し,ピクセルレベルおよびセマンティックな汚職を適用して,自己学習のための「良いバッド」画像ペアを生成する自己改善フレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-31T17:54:29Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - Counterfactually Measuring and Eliminating Social Bias in
Vision-Language Pre-training Models [13.280828458515062]
本稿では,視覚言語事前学習モデルにおける社会的バイアスを定量化するために,反事実に基づくバイアス測定emphCounterBiasを導入する。
また、性別バイアスを測定するための24K画像テキストペアを含む新しいVL-Biasデータセットを構築した。
論文 参考訳(メタデータ) (2022-07-03T14:39:32Z) - VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models [21.549122658275383]
視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
論文 参考訳(メタデータ) (2022-05-30T16:52:30Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。