論文の概要: Learning to Answer Visual Questions from Web Videos
- arxiv url: http://arxiv.org/abs/2205.05019v2
- Date: Wed, 11 May 2022 05:31:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 17:21:53.147943
- Title: Learning to Answer Visual Questions from Web Videos
- Title(参考訳): webビデオから視覚的な質問に答える学習
- Authors: Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid
- Abstract要約: 我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
- 参考スコア(独自算出の注目度): 89.71617065426146
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent methods for visual question answering rely on large-scale annotated
datasets. Manual annotation of questions and answers for videos, however, is
tedious, expensive and prevents scalability. In this work, we propose to avoid
manual annotation and generate a large-scale training dataset for video
question answering making use of automatic cross-modal supervision. We leverage
a question generation transformer trained on text data and use it to generate
question-answer pairs from transcribed video narrations. Given narrated videos,
we then automatically generate the HowToVQA69M dataset with 69M
video-question-answer triplets. To handle the open vocabulary of diverse
answers in this dataset, we propose a training procedure based on a contrastive
loss between a video-question multi-modal transformer and an answer
transformer. We introduce the zero-shot VideoQA task and the VideoQA feature
probe evaluation setting and show excellent results, in particular for rare
answers. Furthermore, our method achieves competitive results on MSRVTT-QA,
ActivityNet-QA, MSVD-QA and How2QA datasets. We also show that our VideoQA
dataset generation approach generalizes to another source of web video and text
data. We use our method to generate the WebVidVQA3M dataset from the WebVid
dataset, i.e., videos with alt-text annotations, and show its benefits for
training VideoQA models. Finally, for a detailed evaluation we introduce iVQA,
a new VideoQA dataset with reduced language bias and high-quality manual
annotations. Code, datasets and trained models are available at
https://antoyang.github.io/jus t-ask.html
- Abstract(参考訳): 最近のビジュアル質問応答の方法は、大規模な注釈付きデータセットに依存している。
しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒で高価であり、スケーラビリティを損なう。
本稿では,手動アノテーションを回避し,自動クロスモーダル監視によるビデオ質問応答のための大規模トレーニングデータセットを作成することを提案する。
テキストデータに基づいて学習した質問生成トランスを活用し,書き起こされたビデオナレーションから質問応答ペアを生成する。
ナレーションされたビデオがあれば、howtovqa69mデータセットを69mのビデオクェリアンワートリプレットで自動的に生成します。
本データセットにおける多様な回答のオープンな語彙を扱うために,ビデオ検索マルチモーダル変換器と応答変換器との対比損失に基づくトレーニング手順を提案する。
ゼロショットビデオQAタスクとビデオQA特徴量評価設定を導入し、特に稀な回答に対して優れた結果を示す。
さらに,本手法は,MSRVTT-QA,ActivityNet-QA,MSVD -QA,How2QAデータセット上での競合的な結果を得る。
また、ビデオQAデータセット生成アプローチがWebビデオとテキストデータの別のソースに一般化されることを示す。
本手法は,WebVidデータセットからWebVidVQA3Mデータセットを生成するために用いられる。
最後に、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットであるiVQAを紹介する。
コード、データセット、トレーニングされたモデルはhttps://antoyang.github.io/jus t-ask.htmlで利用可能である。
関連論文リスト
- Mounting Video Metadata on Transformer-based Language Model for
Open-ended Video Question Answering [18.664991529995664]
我々は、既存の複数選択ビデオ質問応答に挑戦し、それをオープンエンドビデオ質問応答に変更する。
オープンエンドな質問応答に対処するために、事前訓練されたGPT2モデルを用いる。
既存のDramaQAデータセットをオープンな質問応答に変更することにより、アブレーションスタディを行い、ビデオメタデータを使用してパフォーマンスを向上させることができることを示す。
論文 参考訳(メタデータ) (2021-08-11T11:11:43Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - GODIVA: Generating Open-DomaIn Videos from nAtural Descriptions [45.630274235982924]
テキストから動画を自動レグレッシブに生成できるオープンドメインのテキスト・トゥ・ビデオプリトレーニングモデル「GODIVA」を提案する。
Howto100Mは、1億1600万以上のテキストビデオペアを含む大規模なテキストビデオデータセットです。
実験により、GODIVAは下流のビデオ生成タスクで微調整できるだけでなく、目に見えないテキストでも優れたゼロショット機能を持つことが示された。
論文 参考訳(メタデータ) (2021-04-30T07:40:35Z) - Learning Compositional Representation for Few-shot Visual Question
Answering [93.4061107793983]
現在の視覚的質問応答の方法は、トレーニングデータ量で回答を良好に実行するが、例が少ない新規回答では精度が限られている。
回答から属性を十分なデータで抽出することを提案するが、これは後に数ショットの学習を制限するために構成される。
VQA v2.0検証データセットの実験結果から,提案した属性ネットワークの有効性が示された。
論文 参考訳(メタデータ) (2021-02-21T10:16:24Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Look Before you Speak: Visually Contextualized Utterances [88.58909442073858]
ビデオ中の発話を視覚的フレームと書き起こされた音声の両方を文脈として予測するタスクを作成する。
オンラインで多数の指導ビデオを活用することで、手動のアノテーションを必要とせずに、このタスクを大規模に解決するためのモデルを訓練する。
本モデルは,多数のダウンストリームビデオQAベンチマークにおいて,最先端の性能を実現する。
論文 参考訳(メタデータ) (2020-12-10T14:47:02Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet -QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。