論文の概要: On Modality Bias in the TVQA Dataset
- arxiv url: http://arxiv.org/abs/2012.10210v1
- Date: Fri, 18 Dec 2020 13:06:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-01 18:27:35.122914
- Title: On Modality Bias in the TVQA Dataset
- Title(参考訳): TVQAデータセットにおけるモダリティバイアスについて
- Authors: Thomas Winterbottom, Sarah Xiao, Alistair McLean, Noura Al Moubayed
- Abstract要約: TVQAは、人気のあるテレビ番組に基づく大規模なビデオ質問応答データセットです。
データセットに内在するバイアスをテキスト字幕モダリティ(subtitle modality)に示す。
- 参考スコア(独自算出の注目度): 5.907086527706799
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: TVQA is a large scale video question answering (video-QA) dataset based on
popular TV shows. The questions were specifically designed to require "both
vision and language understanding to answer". In this work, we demonstrate an
inherent bias in the dataset towards the textual subtitle modality. We infer
said bias both directly and indirectly, notably finding that models trained
with subtitles learn, on-average, to suppress video feature contribution. Our
results demonstrate that models trained on only the visual information can
answer ~45% of the questions, while using only the subtitles achieves ~68%. We
find that a bilinear pooling based joint representation of modalities damages
model performance by 9% implying a reliance on modality specific information.
We also show that TVQA fails to benefit from the RUBi modality bias reduction
technique popularised in VQA. By simply improving text processing using BERT
embeddings with the simple model first proposed for TVQA, we achieve
state-of-the-art results (72.13%) compared to the highly complex STAGE model
(70.50%). We recommend a multimodal evaluation framework that can highlight
biases in models and isolate visual and textual reliant subsets of data. Using
this framework we propose subsets of TVQA that respond exclusively to either or
both modalities in order to facilitate multimodal modelling as TVQA originally
intended.
- Abstract(参考訳): TVQAは、人気のテレビ番組を基にした大規模ビデオ質問応答(ビデオQA)データセットである。
質問は「答えるために視覚と言語理解の両方を必要とする」よう特別に設計された。
本研究では,テキスト字幕モダリティに対するデータセットに固有のバイアスを示す。
特に、字幕で訓練されたモデルが平均して学習し、ビデオ機能への貢献を抑制することを発見した。
その結果,視覚情報のみに基づいてトレーニングしたモデルでは,質問の45%程度が解答可能であり,字幕のみを使用すれば約68%が解答できることがわかった。
モダリティの共役表現に基づく双線型プーリングは、モダリティ固有情報に依存する9%のモデル性能を損なうことが判明した。
また,テレビQAは,VQAで普及したRUBiモダリティバイアス低減手法の恩恵を受けないことを示す。
BERT埋め込みによるテキスト処理をTVQAで最初に提案した単純なモデルで簡単に改善することにより、非常に複雑なSTAGEモデル(70.50%)と比較して、最先端の結果(72.13%)が得られる。
我々は、モデルのバイアスを強調し、データの視覚およびテキスト依存部分集合を分離できるマルチモーダル評価フレームワークを推奨する。
本フレームワークを用いて,TVQAを意図したマルチモーダルモデリングを容易にするために,TVQAのサブセットを提案する。
関連論文リスト
- Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。
モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。
本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文 参考訳(メタデータ) (2021-11-08T08:18:25Z) - Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。
本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。
GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文 参考訳(メタデータ) (2021-07-27T08:02:49Z) - Overcoming Language Priors with Self-supervised Learning for Visual
Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。
この問題を解決するための自己監督学習フレームワークを紹介します。
我々の手法は最先端の手法を大きく上回ることができる。
論文 参考訳(メタデータ) (2020-12-17T12:30:12Z) - Self-supervised pre-training and contrastive representation learning for
multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。
本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。
提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文 参考訳(メタデータ) (2020-09-17T03:37:37Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。