論文の概要: YTCommentQA: Video Question Answerability in Instructional Videos
- arxiv url: http://arxiv.org/abs/2401.17343v1
- Date: Tue, 30 Jan 2024 14:18:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 16:54:19.627500
- Title: YTCommentQA: Video Question Answerability in Instructional Videos
- Title(参考訳): YTCommentQA: インストラクショナルビデオにおけるビデオ質問応答性
- Authors: Saelyne Yang, Sunghyun Park, Yunseok Jang, Moontae Lee
- Abstract要約: 本稿では,YouTubeから自然生成された質問を含むYTCommentQAデータセットを提案する。
データセットは、その回答可能性と、視覚的、スクリプト、あるいはその両方に答えるために必要なモダリティによって分類される。
- 参考スコア(独自算出の注目度): 22.673000779017595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Instructional videos provide detailed how-to guides for various tasks, with
viewers often posing questions regarding the content. Addressing these
questions is vital for comprehending the content, yet receiving immediate
answers is difficult. While numerous computational models have been developed
for Video Question Answering (Video QA) tasks, they are primarily trained on
questions generated based on video content, aiming to produce answers from
within the content. However, in real-world situations, users may pose questions
that go beyond the video's informational boundaries, highlighting the necessity
to determine if a video can provide the answer. Discerning whether a question
can be answered by video content is challenging due to the multi-modal nature
of videos, where visual and verbal information are intertwined. To bridge this
gap, we present the YTCommentQA dataset, which contains naturally-generated
questions from YouTube, categorized by their answerability and required
modality to answer -- visual, script, or both. Experiments with answerability
classification tasks demonstrate the complexity of YTCommentQA and emphasize
the need to comprehend the combined role of visual and script information in
video reasoning. The dataset is available at
https://github.com/lgresearch/YTCommentQA.
- Abstract(参考訳): インストラクションビデオは様々なタスクのハウツーガイドを提供し、視聴者はコンテンツに関してしばしば質問をする。
これらの疑問に対処することはコンテンツを理解するのに不可欠だが、すぐに答えを得るのは難しい。
ビデオ質問応答(ビデオqa)タスクのために多くの計算モデルが開発されているが、それらは主にビデオコンテンツに基づいて生成された質問に基づいて訓練され、コンテンツの中から回答を生み出すことを目的としている。
しかし、現実世界の状況では、ユーザーはビデオの情報的境界を超える疑問を呈し、ビデオが答えを提供できるかどうかを判断する必要性を強調する。
映像コンテンツによって質問に答えられるかどうかの判断は、視覚情報と言語情報が絡み合っているビデオのマルチモーダル性によって困難である。
このギャップを埋めるために、ytcommentqaデータセットを紹介します。このデータセットには、youtubeから自然に生成された質問が含まれています。
応答可能性分類タスクを用いた実験は、YTCommentQAの複雑さを示し、ビデオ推論における視覚情報とスクリプト情報の複合的な役割を理解する必要性を強調する。
データセットはhttps://github.com/lgresearch/ytcommentqaで利用可能である。
関連論文リスト
- VideoQA in the Era of LLMs: An Empirical Study [108.37456450182054]
Video Large Language Models (Video-LLMs) は盛んであり、多くのビデオ直感的なタスクを進歩させている。
本研究は,ビデオQAにおけるビデオLLMの行動に関するタイムリーかつ包括的な研究を行う。
分析の結果,ビデオ-LLMはビデオQAで優れており,文脈的手がかりを相関させ,様々な映像コンテンツに関する質問に対して妥当な応答を生成できることがわかった。
しかし、時間的コンテンツ順序の推論とQA関連時間的モーメントのグラウンド化の両方において、ビデオの時間性を扱うモデルが失敗する。
論文 参考訳(メタデータ) (2024-08-08T05:14:07Z) - MoVQA: A Benchmark of Versatile Question-Answering for Long-Form Movie
Understanding [69.04413943858584]
長文映画の質問応答データセットであるMoVQAを紹介する。
マルチモーダルシステムの多様な認知能力を評価するためのベンチマークも行った。
論文 参考訳(メタデータ) (2023-12-08T03:33:38Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NEWSKVQA: Knowledge-Aware News Video Question Answering [5.720640816755851]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文 参考訳(メタデータ) (2022-02-08T17:31:31Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Video Question Answering on Screencast Tutorials [43.00474548031818]
ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストの3倍のデータセットを導入する。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
論文 参考訳(メタデータ) (2020-08-02T19:27:42Z) - Knowledge-Based Visual Question Answering in Videos [36.23723122336639]
我々は,人気のシットコムについて,24,282対の質問応答対を用いたビデオデータセットであるKnowIT VQAを紹介する。
このデータセットは、視覚的、テキスト的、時間的コヒーレンス推論と知識に基づく質問を組み合わせる。
i) 知識の取り込みはビデオにおけるVQAの卓越した改善をもたらし, (ii) KnowIT VQAの性能は人間の精度よりかなり遅れている。
論文 参考訳(メタデータ) (2020-04-17T02:06:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。