論文の概要: e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks
- arxiv url: http://arxiv.org/abs/2105.03761v1
- Date: Sat, 8 May 2021 18:46:33 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 15:24:59.872108
- Title: e-ViL: A Dataset and Benchmark for Natural Language Explanations in
Vision-Language Tasks
- Title(参考訳): e-ViL:視覚言語課題における自然言語説明のためのデータセットとベンチマーク
- Authors: Maxime Kayser, Oana-Maria Camburu, Leonard Salewski, Cornelius Emde,
Virginie Do, Zeynep Akata, Thomas Lukasiewicz
- Abstract要約: 説明可能な視覚言語タスクを評価するベンチマークe-ViLを紹介します。
また、NLEで最大のデータセットであるe-SNLI-VEについても紹介する。
画像とテキストの共同埋め込みを学習するUNITERと、予め訓練された言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
- 参考スコア(独自算出の注目度): 52.918087305406296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, an increasing number of works have introduced models capable of
generating natural language explanations (NLEs) for their predictions on
vision-language (VL) tasks. Such models are appealing because they can provide
human-friendly and comprehensive explanations. However, there is still a lack
of unified evaluation approaches for the explanations generated by these
models. Moreover, there are currently only few datasets of NLEs for VL tasks.
In this work, we introduce e-ViL, a benchmark for explainable vision-language
tasks that establishes a unified evaluation framework and provides the first
comprehensive comparison of existing approaches that generate NLEs for VL
tasks. e-ViL spans four models and three datasets. Both automatic metrics and
human evaluation are used to assess model-generated explanations. We also
introduce e-SNLI-VE, the largest existing VL dataset with NLEs (over 430k
instances). Finally, we propose a new model that combines UNITER, which learns
joint embeddings of images and text, and GPT-2, a pre-trained language model
that is well-suited for text generation. It surpasses the previous
state-of-the-art by a large margin across all datasets.
- Abstract(参考訳): 近年では、視覚言語(vl)タスクの予測のために自然言語説明(nles)を生成できるモデルが導入されている。
このようなモデルは、人間にやさしく包括的な説明を提供できるので魅力的である。
しかし、これらのモデルによって生成された説明に対して統一的な評価アプローチがまだ存在しない。
さらに、現在VLタスク用のNLEのデータセットはごくわずかである。
本稿では,統合評価フレームワークを構築し,VLタスクのためのNLEを生成する既存のアプローチを総合的に比較した,説明可能な視覚言語タスクのベンチマークであるe-ViLを紹介する。
e-ViLは4つのモデルと3つのデータセットにまたがる。
自動測定と人的評価の両方が、モデル生成の説明を評価するために使用される。
また、NLE(430kインスタンス以上)を持つ既存のVLデータセットとしては最大であるe-SNLI-VEを紹介します。
最後に,画像とテキストの共同埋め込みを学習するUNITERと,テキスト生成に適した事前学習型言語モデルであるGPT-2を組み合わせた新しいモデルを提案する。
これまでの最先端のデータを、すべてのデータセットで大きく上回っている。
関連論文リスト
- Automated Data Visualization from Natural Language via Large Language Models: An Exploratory Study [41.84915013818794]
The Natural Language to Visualization (NL2Vis) taskは、自然言語記述を接地テーブルの視覚表現に変換することを目的としている。
多くのディープラーニングベースのアプローチがNL2Vis向けに開発されているが、目に見えないデータベースや複数のテーブルにまたがるデータの視覚化には課題が続いている。
本稿では,Large Language Models (LLMs) の顕著な生成能力からインスピレーションを得て,その可能性を評価するための実証的研究を行う。
論文 参考訳(メタデータ) (2024-04-26T03:25:35Z) - An Open Dataset and Model for Language Identification [84.15194457400253]
マクロ平均F1スコア0.93、偽陽性率0.033を201言語で達成するLIDモデルを提案する。
モデルとデータセットの両方を研究コミュニティに公開しています。
論文 参考訳(メタデータ) (2023-05-23T08:43:42Z) - Going Beyond Nouns With Vision & Language Models Using Synthetic Data [43.87754926411406]
大規模な事前学習型ビジョン・アンド・ランゲージ(VL)モデルは、多くのアプリケーションで顕著な性能を示している。
最近の研究でこれらのモデルの根本的な弱点が明らかになった。
このような欠点を克服するためのモデルを教えるために、純粋に合成されたデータがどの程度活用できるかを調査する。
論文 参考訳(メタデータ) (2023-03-30T17:57:43Z) - Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level
Natural Language Explanations [12.757277574843101]
自然言語の説明は、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供することを約束する。
現在のモデルでは、タスクの正確さと説明の妥当性に優れたパフォーマンスを提供するが、様々な問題に悩まされている。
生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用する。
提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者が生成した説明を地上の真実よりも好んで, 最新のモデルよりも優れている。
論文 参考訳(メタデータ) (2022-12-08T12:28:23Z) - VL-CheckList: Evaluating Pre-trained Vision-Language Models with
Objects, Attributes and Relations [28.322824790738768]
Vision-Language Pretrainingモデルは、多くのモード間下流タスクを成功に導いた。
既存の作業の多くは、微調整された下流タスクのパフォーマンスを比較することでシステムを評価した。
自然言語処理をテストするためにCheckListにインスパイアされた我々は、新しいフレームワークであるVL-CheckListを利用する。
論文 参考訳(メタデータ) (2022-07-01T06:25:53Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - Enabling Multimodal Generation on CLIP via Vision-Language Knowledge
Distillation [79.72299298976525]
我々は、視覚言語知識蒸留(VLKD)を通して、テキスト事前学習言語モデル(PLM)を用いた視覚言語事前学習モデルの拡張を提案する。
実験の結果,複数モーダル生成タスクにおいて,視覚的質問応答や画像キャプションなどのゼロショット性能が強いことがわかった。
PLMの本来のテキスト言語理解と生成能力は、VLKDの後に維持される。
論文 参考訳(メタデータ) (2022-03-12T09:33:37Z) - VinVL: Revisiting Visual Representations in Vision-Language Models [96.39332942534368]
画像のオブジェクト中心表現を提供するための改良されたオブジェクト検出モデルを開発した。
新しい視覚機能は、すべての視覚言語(VL)タスクのパフォーマンスを大幅に改善する。
新しいオブジェクト検出モデルを公開します。
論文 参考訳(メタデータ) (2021-01-02T23:35:27Z) - Learning Contextual Representations for Semantic Parsing with
Generation-Augmented Pre-Training [86.91380874390778]
本稿では,生成モデルを活用して事前学習データを生成することで,自然言語発話と表スキーマの表現を共同で学習するGAPを提案する。
実験結果に基づいて、GAP MODELを利用するニューラルセマンティクスは、SPIDERとCRITERIA-to-generationベンチマークの両方で最新の結果を得る。
論文 参考訳(メタデータ) (2020-12-18T15:53:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。