論文の概要: On Modality Bias in the TVQA Dataset
- arxiv url: http://arxiv.org/abs/2012.10210v1
- Date: Fri, 18 Dec 2020 13:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:27:35.122914
- Title: On Modality Bias in the TVQA Dataset
- Title(参考訳): TVQAデータセットにおけるモダリティバイアスについて
- Authors: Thomas Winterbottom, Sarah Xiao, Alistair McLean, Noura Al Moubayed
- Abstract要約: TVQAは、人気のあるテレビ番組に基づく大規模なビデオ質問応答データセットです。
データセットに内在するバイアスをテキスト字幕モダリティ(subtitle modality)に示す。
- 参考スコア(独自算出の注目度): 5.907086527706799
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: TVQA is a large scale video question answering (video-QA) dataset based on
popular TV shows. The questions were specifically designed to require "both
vision and language understanding to answer". In this work, we demonstrate an
inherent bias in the dataset towards the textual subtitle modality. We infer
said bias both directly and indirectly, notably finding that models trained
with subtitles learn, on-average, to suppress video feature contribution. Our
results demonstrate that models trained on only the visual information can
answer ~45% of the questions, while using only the subtitles achieves ~68%. We
find that a bilinear pooling based joint representation of modalities damages
model performance by 9% implying a reliance on modality specific information.
We also show that TVQA fails to benefit from the RUBi modality bias reduction
technique popularised in VQA. By simply improving text processing using BERT
embeddings with the simple model first proposed for TVQA, we achieve
state-of-the-art results (72.13%) compared to the highly complex STAGE model
(70.50%). We recommend a multimodal evaluation framework that can highlight
biases in models and isolate visual and textual reliant subsets of data. Using
this framework we propose subsets of TVQA that respond exclusively to either or
both modalities in order to facilitate multimodal modelling as TVQA originally
intended.
- Abstract(参考訳): TVQAは、人気のテレビ番組を基にした大規模ビデオ質問応答(ビデオQA)データセットである。
質問は「答えるために視覚と言語理解の両方を必要とする」よう特別に設計された。
本研究では,テキスト字幕モダリティに対するデータセットに固有のバイアスを示す。
特に、字幕で訓練されたモデルが平均して学習し、ビデオ機能への貢献を抑制することを発見した。
その結果,視覚情報のみに基づいてトレーニングしたモデルでは,質問の45%程度が解答可能であり,字幕のみを使用すれば約68%が解答できることがわかった。
モダリティの共役表現に基づく双線型プーリングは、モダリティ固有情報に依存する9%のモデル性能を損なうことが判明した。
また,テレビQAは,VQAで普及したRUBiモダリティバイアス低減手法の恩恵を受けないことを示す。
BERT埋め込みによるテキスト処理をTVQAで最初に提案した単純なモデルで簡単に改善することにより、非常に複雑なSTAGEモデル(70.50%)と比較して、最先端の結果(72.13%)が得られる。
我々は、モデルのバイアスを強調し、データの視覚およびテキスト依存部分集合を分離できるマルチモーダル評価フレームワークを推奨する。
本フレームワークを用いて,TVQAを意図したマルチモーダルモデリングを容易にするために,TVQAのサブセットを提案する。
関連論文リスト
- CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - CLIP-It! Language-Guided Video Summarization [96.69415453447166]
この作業では、ジェネリックとクエリにフォーカスしたビデオ要約に対処する単一のフレームワークであるCLIP-Itを導入する。
本稿では,言語誘導型マルチモーダルトランスフォーマーを提案する。
本モデルは, 地道的な監督を伴わずに, 訓練により教師なしの設定に拡張することができる。
論文 参考訳(メタデータ) (2021-07-01T17:59:27Z) - Interventional Video Grounding with Dual Contrastive Learning [16.0734337895897]
ビデオグラウンドティングは、与えられたテキストクエリのために、未編集のビデオから瞬間をローカライズすることを目的としている。
本稿では、因果推論の観点から新しいパラダイムを提案し、モデルとデータの背後にある因果関係を明らかにする。
また、テキストとビデオの整合性を改善するために、二重のコントラスト学習アプローチを導入しています。
論文 参考訳(メタデータ) (2021-06-21T12:11:28Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。