論文の概要: NEWSKVQA: Knowledge-Aware News Video Question Answering
- arxiv url: http://arxiv.org/abs/2202.04015v1
- Date: Tue, 8 Feb 2022 17:31:31 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 16:21:27.328445
- Title: NEWSKVQA: Knowledge-Aware News Video Question Answering
- Title(参考訳): newskvqa: ナレッジアウェアなニュースビデオの質問に答える
- Authors: Pranay Gupta and Manish Gupta
- Abstract要約: 我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
- 参考スコア(独自算出の注目度): 5.720640816755851
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Answering questions in the context of videos can be helpful in video
indexing, video retrieval systems, video summarization, learning management
systems and surveillance video analysis. Although there exists a large body of
work on visual question answering, work on video question answering (1) is
limited to domains like movies, TV shows, gameplay, or human activity, and (2)
is mostly based on common sense reasoning. In this paper, we explore a new
frontier in video question answering: answering knowledge-based questions in
the context of news videos. To this end, we curate a new dataset of 12K news
videos spanning across 156 hours with 1M multiple-choice question-answer pairs
covering 8263 unique entities. We make the dataset publicly available. Using
this dataset, we propose a novel approach, NEWSKVQA (Knowledge-Aware News Video
Question Answering) which performs multi-modal inferencing over textual
multiple-choice questions, videos, their transcripts and knowledge base, and
presents a strong baseline.
- Abstract(参考訳): ビデオの文脈で質問に答えることは、ビデオインデクシング、ビデオ検索システム、ビデオ要約、学習管理システム、監視ビデオ分析において有用である。
視覚的質問応答に関する研究は多数存在するが、ビデオ質問応答(1)は映画、テレビ番組、ゲームプレイ、ヒューマンアクティビティなどの領域に限定され、(2)は常識推論に基づくものが多い。
本稿では,ニュースビデオの文脈における知識に基づく質問への回答という,ビデオ質問応答の新たなフロンティアについて検討する。
この目的のために、8263のユニークなエンティティをカバーする100万の質問応答ペアを用いて、156時間にまたがる12Kのニュースビデオのデータセットをキュレートする。
データセットを公開しています。
このデータセットを用いて,複数の質問,ビデオ,書き起こし,知識ベースをマルチモーダルで参照し,強いベースラインを示す,newskvqa(knowledge-aware news video question answering)という新しい手法を提案する。
関連論文リスト
- YTCommentQA: Video Question Answerability in Instructional Videos [22.673000779017595]
本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
論文 参考訳(メタデータ) (2024-01-30T14:18:37Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - WildQA: In-the-Wild Video Question Answering [22.065516207195323]
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。
また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
論文 参考訳(メタデータ) (2022-09-14T13:54:07Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Video Question Answering on Screencast Tutorials [43.00474548031818]
ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストの3倍のデータセットを導入する。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
論文 参考訳(メタデータ) (2020-08-02T19:27:42Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z) - VIOLIN: A Large-Scale Dataset for Video-and-Language Inference [103.7457132841367]
ビデオとテキストのマルチモーダル理解のための新しいタスク, Video-and-Language Inferenceを導入する。
サブタイトルを前提としたビデオクリップと、そのビデオコンテンツに基づいて自然言語仮説とをペアリングすると、モデルは、その仮説が所定のビデオクリップに関連付けられているか、矛盾しているかを推測する必要がある。
このタスクには、Violin(VIdeO-and-Language Inference)という名の新しい大規模データセットが導入された。
論文 参考訳(メタデータ) (2020-03-25T20:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。