論文の概要: VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations
- arxiv url: http://arxiv.org/abs/2207.00221v1
- Date: Fri, 1 Jul 2022 06:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-05 01:43:56.494533
- Title: VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations
- Title(参考訳): VL-CheckList: 対象,属性,関係を考慮した事前学習型視覚言語モデルの評価
- Authors: Tiancheng Zhao, Tianqi Zhang, Mingwei Zhu, Haozhan Shen, Kyusong Lee,
Xiaopeng Lu, Jianwei Yin
- Abstract要約: Vision-Language Pretrainingモデルは、最近、多くのモーダルな下流タスクを成功させた。
自然言語処理をテストするためのCheckListに触発されて,新しいフレームワークであるVL-CheckListを紹介した。
- 参考スコア(独自算出の注目度): 28.322824790738768
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language Pretraining (VLP) models have recently successfully
facilitated many cross-modal downstream tasks. Most existing works evaluated
their systems by comparing the fine-tuned downstream task performance. However,
only average downstream task accuracy provides little information about the
pros and cons of each VLP method, let alone provides insights on how the
community can improve the systems in the future. Inspired by the CheckList for
testing natural language processing, we introduce VL-CheckList, a novel
framework to understand the capabilities of VLP models. The proposed method
divides the image-texting ability of a VLP model into three categories:
objects, attributes, and relations, and uses a novel taxonomy to further break
down these three aspects. We conduct comprehensive studies to analyze seven
recently popular VLP models via the proposed framework. Results confirm the
effectiveness of the proposed method by revealing fine-grained differences
among the compared models that were not visible from downstream task-only
evaluation. Further results show promising research direction in building
better VLP models. Data and Code: https://github.com/om-ai-lab/VL-CheckList
- Abstract(参考訳): vision-language pretraining(vlp)モデルは、最近多くのクロスモーダルダウンストリームタスクをうまく促進しました。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
しかしながら、平均ダウンストリームタスク精度だけが、それぞれのVLPメソッドの長所と短所についてはほとんど情報を提供していない。
自然言語処理をテストするためのCheckListにヒントを得て,VLPモデルの能力を理解する新しいフレームワークであるVL-CheckListを紹介した。
提案手法は,VLPモデルの画像テキスト化能力をオブジェクト,属性,関係の3つのカテゴリに分割し,これら3つの側面をさらに分解するために新しい分類法を用いる。
提案手法を用いて,最近普及している7つのVLPモデルの解析を行う。
提案手法の有効性は,下流のタスクのみの評価では見えなかった比較モデル間でのきめ細かい相違を明らかにすることで検証した。
さらなる結果は、より良いVLPモデルを構築するための有望な研究方向を示す。
データとコード:https://github.com/om-ai-lab/VL-CheckList
関連論文リスト
- Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - Position-guided Text Prompt for Vision-Language Pre-training [121.15494549650548]
本研究では,ビジョンランゲージ・プレトレーニングで訓練したクロスモーダルモデルの視覚的グラウンド化能力を高めるために,位置誘導型テキストプロンプト(PTP)パラダイムを提案する。
PTPは、与えられたブロック内のオブジェクトを予測したり、与えられたオブジェクトのブロックを後退させたりすることで、PTPが与えられた視覚的グラウンドタスクを補充するブランク問題に再構成する。
PTPはオブジェクト検出をベースとした手法で同等の結果を得るが、PTPがオブジェクト検出を破棄し、後続では不可能になるため、推論速度ははるかに速い。
論文 参考訳(メタデータ) (2022-12-19T18:55:43Z) - Probing Cross-modal Semantics Alignment Capability from the Textual
Perspective [52.52870614418373]
クロスモーダルなセマンティクスの調整は、視覚と言語の事前学習モデルの本質的な能力の1つであると主張されている。
画像キャプションに基づく新しい探索手法を提案し,まずFjordモデルのモーダル間セマンティクスアライメントを実証的に研究する。
論文 参考訳(メタデータ) (2022-10-18T02:55:58Z) - Counterfactually Measuring and Eliminating Social Bias in
Vision-Language Pre-training Models [13.280828458515062]
本稿では,視覚言語事前学習モデルにおける社会的バイアスを定量化するために,反事実に基づくバイアス測定emphCounterBiasを導入する。
また、性別バイアスを測定するための24K画像テキストペアを含む新しいVL-Biasデータセットを構築した。
論文 参考訳(メタデータ) (2022-07-03T14:39:32Z) - VLUE: A Multi-Task Benchmark for Evaluating Vision-Language Models [21.549122658275383]
視覚言語前訓練の最近の進歩は、様々な視覚言語タスクにおいて印象的なパフォーマンスを示している。
一般化能力と効率-性能トレードオフを評価するマルチタスクマルチディメンジョン・ベンチマークであるVision-Language Understanding Evaluationベンチマークを導入する。
論文 参考訳(メタデータ) (2022-05-30T16:52:30Z) - PEVL: Position-enhanced Pre-training and Prompt Tuning for
Vision-language Models [127.17675443137064]
PEVLを導入し、明示的なオブジェクト位置モデリングによる視覚言語モデルの事前学習と迅速なチューニングを促進する。
PEVLは、統一言語モデリングフレームワークにおいて、離散化されたオブジェクトの位置と言語を再構成する。
PEVLは,表現理解や句の接頭など,位置感性のあるタスクに対して,最先端のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2022-05-23T10:17:53Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks [52.918087305406296]
説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2021-05-08T18:46:33Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。