Fugu-MT 論文翻訳(概要): On Modality Bias in the TVQA Dataset

論文の概要: On Modality Bias in the TVQA Dataset

arxiv url: http://arxiv.org/abs/2012.10210v1
Date: Fri, 18 Dec 2020 13:06:23 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-01 18:27:35.122914
Title: On Modality Bias in the TVQA Dataset
Title（参考訳）: TVQAデータセットにおけるモダリティバイアスについて
Authors: Thomas Winterbottom, Sarah Xiao, Alistair McLean, Noura Al Moubayed
Abstract要約: TVQAは、人気のあるテレビ番組に基づく大規模なビデオ質問応答データセットです。データセットに内在するバイアスをテキスト字幕モダリティ(subtitle modality)に示す。
参考スコア（独自算出の注目度）: 5.907086527706799
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: TVQA is a large scale video question answering (video-QA) dataset based on popular TV shows. The questions were specifically designed to require "both vision and language understanding to answer". In this work, we demonstrate an inherent bias in the dataset towards the textual subtitle modality. We infer said bias both directly and indirectly, notably finding that models trained with subtitles learn, on-average, to suppress video feature contribution. Our results demonstrate that models trained on only the visual information can answer ~45% of the questions, while using only the subtitles achieves ~68%. We find that a bilinear pooling based joint representation of modalities damages model performance by 9% implying a reliance on modality specific information. We also show that TVQA fails to benefit from the RUBi modality bias reduction technique popularised in VQA. By simply improving text processing using BERT embeddings with the simple model first proposed for TVQA, we achieve state-of-the-art results (72.13%) compared to the highly complex STAGE model (70.50%). We recommend a multimodal evaluation framework that can highlight biases in models and isolate visual and textual reliant subsets of data. Using this framework we propose subsets of TVQA that respond exclusively to either or both modalities in order to facilitate multimodal modelling as TVQA originally intended.
Abstract（参考訳）: TVQAは、人気のテレビ番組を基にした大規模ビデオ質問応答(ビデオQA)データセットである。質問は「答えるために視覚と言語理解の両方を必要とする」よう特別に設計された。本研究では,テキスト字幕モダリティに対するデータセットに固有のバイアスを示す。特に、字幕で訓練されたモデルが平均して学習し、ビデオ機能への貢献を抑制することを発見した。その結果,視覚情報のみに基づいてトレーニングしたモデルでは,質問の45%程度が解答可能であり,字幕のみを使用すれば約68%が解答できることがわかった。モダリティの共役表現に基づく双線型プーリングは、モダリティ固有情報に依存する9%のモデル性能を損なうことが判明した。また,テレビQAは,VQAで普及したRUBiモダリティバイアス低減手法の恩恵を受けないことを示す。 BERT埋め込みによるテキスト処理をTVQAで最初に提案した単純なモデルで簡単に改善することにより、非常に複雑なSTAGEモデル(70.50%)と比較して、最先端の結果(72.13%)が得られる。我々は、モデルのバイアスを強調し、データの視覚およびテキスト依存部分集合を分離できるマルチモーダル評価フレームワークを推奨する。本フレームワークを用いて,TVQAを意図したマルチモーダルモデリングを容易にするために,TVQAのサブセットを提案する。

関連論文リスト

VisualSimpleQA: A Benchmark for Decoupled Evaluation of Large Vision-Language Models in Fact-Seeking Question Answering [28.045285777736876]
2つの重要な特徴を持つマルチモーダルなファクト検索ベンチマークであるVisualSimpleQAを紹介する。視覚的・言語的モダリティにおけるLVLMの合理化・分離評価を可能にする。 15個のLVLMの実験では、GPT-4oのような最先端のモデルでさえ、わずか60%以上の精度しか達成していない。
論文参考訳（メタデータ） (2025-03-09T07:25:32Z)
Admitting Ignorance Helps the Video Question Answering Models to Answer [82.22149677979189]
モデルはしばしばショートカットを定め、結果として質問と回答の間に急激な相関関係が生じる、と我々は主張する。そこで本研究では,モデルに不明瞭さを認めざるを得ない新たな学習手法を提案する。実際に、我々のフレームワークに最先端のモデルを統合することで、その有効性を検証する。
論文参考訳（メタデータ） (2025-01-15T12:44:52Z)
debiaSAE: Benchmarking and Mitigating Vision-Language Model Bias [1.3995965887921709]
5つのモデルと6つのデータセットの人口統計バイアスを分析します。 UTKFaceやCelebAといったポートレートデータセットは、バイアス検出に最適なツールです。我々のデバイアス法は公平さを向上し,ベースラインよりも5～15ポイントの性能向上を実現した。
論文参考訳（メタデータ） (2024-10-17T02:03:27Z)
Towards Debiasing Temporal Sentence Grounding in Video [59.42702544312366]
ビデオ(TSGV)タスクの時間文グラウンドングは、未編集のビデオから時間モーメントを見つけ、言語クエリにマッチさせることである。モーメントアノテーションのバイアスを考慮せずに、多くのモデルはモーメントアノテーションの統計的規則性を捉える傾向がある。本稿では,データデバイアスとモデルデバイアスという2つのデバイアス戦略を提案する。
論文参考訳（メタデータ） (2021-11-08T08:18:25Z)
Greedy Gradient Ensemble for Robust Visual Question Answering [163.65789778416172]
VQA(Visual Question Answering)では、分布バイアスとショートカットバイアスという2つの側面から生じる言語バイアスを強調している。本稿では,非バイアスベースモデル学習に複数のバイアスモデルを組み合わせた新しいデバイアスフレームワークGreedy Gradient Ensemble(GGE)を提案する。 GGEはバイアス付きモデルを優先的にバイアス付きデータ分布に過度に適合させ、バイアス付きモデルでは解決が難しい例にベースモデルがより注意を払う。
論文参考訳（メタデータ） (2021-07-27T08:02:49Z)
Overcoming Language Priors with Self-supervised Learning for Visual Question Answering [62.88124382512111]
ほとんどのビジュアル質問回答(VQA)モデルは、言語の先行問題に苦しんでいます。この問題を解決するための自己監督学習フレームワークを紹介します。我々の手法は最先端の手法を大きく上回ることができる。
論文参考訳（メタデータ） (2020-12-17T12:30:12Z)
Self-supervised pre-training and contrastive representation learning for multiple-choice video QA [39.78914328623504]
Video Question Answering (ビデオQA)は、与えられた質問に答えるために、ビデオと言語の両方の微妙な理解を必要とする。本稿では,自己指導型事前学習段階と主段階における教師付きコントラスト学習を補助学習として,複数選択型ビデオ質問応答のための新しい学習手法を提案する。提案手法は,TVQA,TVQA+,DramaQAといったマルチチョイスビデオQAに関連する高競争性ベンチマークデータセットを用いて評価する。
論文参考訳（メタデータ） (2020-09-17T03:37:37Z)
Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文参考訳（メタデータ） (2020-06-12T14:07:04Z)
Dense-Caption Matching and Frame-Selection Gating for Temporal Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文参考訳（メタデータ） (2020-05-13T16:35:27Z)
ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文参考訳（メタデータ） (2020-01-22T14:39:28Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。