論文の概要: End-to-End Video Question-Answer Generation with Generator-Pretester
Network
- arxiv url: http://arxiv.org/abs/2101.01447v1
- Date: Tue, 5 Jan 2021 10:46:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-11 11:43:14.051239
- Title: End-to-End Video Question-Answer Generation with Generator-Pretester
Network
- Title(参考訳): ジェネレータネットワークを用いたエンドツーエンドビデオ質問応答生成
- Authors: Hung-Ting Su, Chen-Hsi Chang, Po-Wei Shen, Yu-Siang Wang, Ya-Liang
Chang, Yu-Cheng Chang, Pu-Jen Cheng and Winston H. Hsu
- Abstract要約: マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
- 参考スコア(独自算出の注目度): 27.31969951281815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a novel task, Video Question-Answer Generation (VQAG), for
challenging Video Question Answering (Video QA) task in multimedia. Due to
expensive data annotation costs, many widely used, large-scale Video QA
datasets such as Video-QA, MSVD-QA and MSRVTT-QA are automatically annotated
using Caption Question Generation (CapQG) which inputs captions instead of the
video itself. As captions neither fully represent a video, nor are they always
practically available, it is crucial to generate question-answer pairs based on
a video via Video Question-Answer Generation (VQAG). Existing video-to-text
(V2T) approaches, despite taking a video as the input, only generate a question
alone. In this work, we propose a novel model Generator-Pretester Network that
focuses on two components: (1) The Joint Question-Answer Generator (JQAG) which
generates a question with its corresponding answer to allow Video Question
"Answering" training. (2) The Pretester (PT) verifies a generated question by
trying to answer it and checks the pretested answer with both the model's
proposed answer and the ground truth answer. We evaluate our system with the
only two available large-scale human-annotated Video QA datasets and achieves
state-of-the-art question generation performances. Furthermore, using our
generated QA pairs only on the Video QA task, we can surpass some supervised
baselines. We apply our generated questions to Video QA applications and
surpasses some supervised baselines using generated questions only. As a
pre-training strategy, we outperform both CapQG and transfer learning
approaches when employing semi-supervised (20%) or fully supervised learning
with annotated data. These experimental results suggest the novel perspectives
for Video QA training.
- Abstract(参考訳): マルチメディアにおけるビデオ質問応答(VQA)課題に挑戦する新しい課題であるビデオ質問応答生成(VQAG)について検討する。
高価なデータアノテーションコストのため、ビデオQA、MSVD-QA、MSRVTT-QAなどの大規模ビデオQAデータセットは、ビデオ自体の代わりにキャプションを入力するCaption Question Generation(CapQG)を使用して自動的に注釈付けされる。
キャプションはビデオを完全に表現するものではないし、実際に利用できないため、VQAG(Video Question-Answer Generation)を通じてビデオに基づいて質問対を生成することが重要である。
既存のV2T(Video-to-text)アプローチは、ビデオを入力として用いながら、質問のみを生成する。
本研究では,(1)JQAG(Joint Question-Answer Generator)とJQAG(Joint Question-Answer Generator)の2つのコンポーネントに焦点をあてて,ビデオ質問の"回答"トレーニングを可能にする,新しいモデルであるGenerator-Pretester Networkを提案する。
2)Pretester(PT)は,モデルの提案した回答と根拠的真理解の両方で,先行した回答をチェックすることによって,生成した質問を検証する。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
さらに、生成したQAペアをビデオQAタスクでのみ使用することにより、いくつかの教師付きベースラインを超えることができる。
生成した質問をビデオQAアプリケーションに適用し、生成した質問のみを用いて教師付きベースラインを超越する。
事前学習戦略として,半教師付き (20%) や注釈付きデータによる教師付き学習の場合には,capqg と transfer learning の両方のアプローチを上回っている。
これらの実験結果から,ビデオQAトレーニングの新たな視点が示唆された。
関連論文リスト
- Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Improving Unsupervised Question Answering via Summarization-Informed
Question Generation [47.96911338198302]
質問生成 (QG) とは, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文, 質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、質問文、
我々は、自由なニュース要約データを使用し、宣言文を依存性解析、名前付きエンティティ認識、セマンティックロールラベリングを用いて適切な質問に変換する。
得られた質問は、元のニュース記事と組み合わせて、エンドツーエンドのニューラルQGモデルをトレーニングする。
論文 参考訳(メタデータ) (2021-09-16T13:08:43Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。