論文の概要: Video Question Answering on Screencast Tutorials
- arxiv url: http://arxiv.org/abs/2008.00544v1
- Date: Sun, 2 Aug 2020 19:27:42 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 19:22:18.139626
- Title: Video Question Answering on Screencast Tutorials
- Title(参考訳): スクリーンキャストチュートリアルによるビデオ質問応答
- Authors: Wentian Zhao, Seokhwan Kim, Ning Xu, Hailin Jin
- Abstract要約: ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストの3倍のデータセットを導入する。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
- 参考スコア(独自算出の注目度): 43.00474548031818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a new video question answering task on screencast
tutorials. We introduce a dataset including question, answer and context
triples from the tutorial videos for a software. Unlike other video question
answering works, all the answers in our dataset are grounded to the domain
knowledge base. An one-shot recognition algorithm is designed to extract the
visual cues, which helps enhance the performance of video question answering.
We also propose several baseline neural network architectures based on various
aspects of video contexts from the dataset. The experimental results
demonstrate that our proposed models significantly improve the question
answering performances by incorporating multi-modal contexts and domain
knowledge.
- Abstract(参考訳): 本稿では,スクリーンキャストチュートリアルに新たな質問応答タスクを提案する。
ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストトリプルを含むデータセットを紹介する。
他のビデオ質問応答作業とは異なり、データセットのすべての回答はドメイン知識ベースに基づいています。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
また,データセットからビデオコンテキストの様々な側面に基づいて,複数のベースラインニューラルネットワークアーキテクチャを提案する。
実験の結果,提案モデルでは,マルチモーダルコンテキストとドメイン知識を組み込むことで,質問応答性能を著しく向上することが示された。
関連論文リスト
- YTCommentQA: Video Question Answerability in Instructional Videos [22.673000779017595]
本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
論文 参考訳(メタデータ) (2024-01-30T14:18:37Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - NEWSKVQA: Knowledge-Aware News Video Question Answering [5.720640816755851]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文 参考訳(メタデータ) (2022-02-08T17:31:31Z) - A Survey on Deep Learning Technique for Video Segmentation [147.0767454918527]
ビデオセグメンテーションは幅広い応用において重要な役割を果たしている。
ディープラーニングベースのアプローチは、ビデオセグメンテーションに特化しており、魅力的なパフォーマンスを提供している。
論文 参考訳(メタデータ) (2021-07-02T15:51:07Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Convolutional Hierarchical Attention Network for Query-Focused Video
Summarization [74.48782934264094]
本稿では、ユーザのクエリと長いビデオを入力として取り込む、クエリ中心のビデオ要約の課題に対処する。
本稿では,特徴符号化ネットワークとクエリ関連計算モジュールの2つの部分からなる畳み込み階層型注意ネットワーク(CHAN)を提案する。
符号化ネットワークでは,局所的な自己認識機構と問合せ対応のグローバルアテンション機構を備えた畳み込みネットワークを用いて,各ショットの視覚情報を学習する。
論文 参考訳(メタデータ) (2020-01-31T04:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。