論文の概要: Learning to Answer Visual Questions from Web Videos
- arxiv url: http://arxiv.org/abs/2205.05019v2
- Date: Wed, 11 May 2022 05:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:21:53.147943
- Title: Learning to Answer Visual Questions from Web Videos
- Title(参考訳): webビデオから視覚的な質問に答える学習
- Authors: Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
- Abstract要約: 我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
- 参考スコア(独自算出の注目度): 89.71617065426146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods for visual question answering rely on large-scale annotated
datasets. Manual annotation of questions and answers for videos, however, is
tedious, expensive and prevents scalability. In this work, we propose to avoid
manual annotation and generate a large-scale training dataset for video
question answering making use of automatic cross-modal supervision. We leverage
a question generation transformer trained on text data and use it to generate
question-answer pairs from transcribed video narrations. Given narrated videos,
we then automatically generate the HowToVQA69M dataset with 69M
video-question-answer triplets. To handle the open vocabulary of diverse
answers in this dataset, we propose a training procedure based on a contrastive
loss between a video-question multi-modal transformer and an answer
transformer. We introduce the zero-shot VideoQA task and the VideoQA feature
probe evaluation setting and show excellent results, in particular for rare
answers. Furthermore, our method achieves competitive results on MSRVTT-QA,
ActivityNet-QA, MSVD-QA and How2QA datasets. We also show that our VideoQA
dataset generation approach generalizes to another source of web video and text
data. We use our method to generate the WebVidVQA3M dataset from the WebVid
dataset, i.e., videos with alt-text annotations, and show its benefits for
training VideoQA models. Finally, for a detailed evaluation we introduce iVQA,
a new VideoQA dataset with reduced language bias and high-quality manual
annotations. Code, datasets and trained models are available at
https://antoyang.github.io/just-ask.html
- Abstract(参考訳): 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。
しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。
本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。
テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。
ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。
本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。
ゼロショットビデオQAタスクとビデオQA特徴量評価設定を導入し、特に稀な回答に対して優れた結果を示す。
さらに,本手法は,MSRVTT-QA,ActivityNet-QA,MSVD-QA,How2QAデータセット上での競合的な結果を得る。
また、ビデオQAデータセット生成アプローチがWebビデオとテキストデータの別のソースに一般化されることを示す。
本手法は,WebVidデータセットからWebVidVQA3Mデータセットを生成するために用いられる。
最後に、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットであるiVQAを紹介する。
コード、データセット、トレーニングされたモデルはhttps://antoyang.github.io/just-ask.htmlで利用可能である。
関連論文リスト
- Contrastive Video Question Answering via Video Graph Transformer [184.3679515511028]
本稿では,ビデオグラフ変換モデル(CoVGT)を提案する。
CoVGTの特異性と優越性は3倍である。
我々は,CoVGTが従来のビデオ推論タスクよりもはるかに優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2023-02-27T11:09:13Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Zero-Shot Video Question Answering via Frozen Bidirectional Language
Models [89.71617065426146]
ビデオ質問応答(Video QA)は、訓練に多様なマルチモーダルデータを必要とする複雑なタスクである。
近年の手法では,手動による視覚的質問応答を伴わないゼロショット設定が検討されている。
我々は,凍結自己回帰言語モデル (BiLM) 上に構築し,この手法がゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。
論文 参考訳(メタデータ) (2022-06-16T13:18:20Z) - Mounting Video Metadata on Transformer-based Language Model for
Open-ended Video Question Answering [18.664991529995664]
我々は、既存の複数選択ビデオ質問応答に挑戦し、それをオープンエンドビデオ質問応答に変更する。
オープンエンドな質問応答に対処するために、事前訓練されたGPT2モデルを用いる。
既存のDramaQAデータセットをオープンな質問応答に変更することにより、アブレーションスタディを行い、ビデオメタデータを使用してパフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-08-11T11:11:43Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。