論文の概要: WildQA: In-the-Wild Video Question Answering
- arxiv url: http://arxiv.org/abs/2209.06650v1
- Date: Wed, 14 Sep 2022 13:54:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 12:52:12.882466
- Title: WildQA: In-the-Wild Video Question Answering
- Title(参考訳): WildQA:Wildビデオの質問に答える
- Authors: Santiago Castro, Naihao Deng, Pingxuan Huang, Mihai Burzo, Rada
Mihalcea
- Abstract要約: 本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。
また、与えられた質問や回答に対する視覚的支援を識別する新しいタスクについても紹介する。
- 参考スコア(独自算出の注目度): 22.065516207195323
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Existing video understanding datasets mostly focus on human interactions,
with little attention being paid to the "in the wild" settings, where the
videos are recorded outdoors. We propose WILDQA, a video understanding dataset
of videos recorded in outside settings. In addition to video question answering
(Video QA), we also introduce the new task of identifying visual support for a
given question and answer (Video Evidence Selection). Through evaluations using
a wide range of baseline models, we show that WILDQA poses new challenges to
the vision and language research communities. The dataset is available at
https://lit.eecs.umich.edu/wildqa/.
- Abstract(参考訳): 既存のビデオ理解データセットは、主に人間のインタラクションに焦点を当てており、ビデオが屋外に記録される"野生"設定にはほとんど注意が払われていない。
本研究では,外部設定で録画された映像の映像理解データセットWILDQAを提案する。
また,ビデオ質問応答(ビデオQA)に加えて,与えられた質問と回答に対する視覚的支援(ビデオエビデンス選択)を識別するタスクも導入した。
幅広いベースラインモデルを用いた評価を通じて、WILDQAはビジョンと言語研究コミュニティに新たな課題をもたらすことを示す。
データセットはhttps://lit.eecs.umich.edu/wildqa/で利用可能である。
関連論文リスト
- CinePile: A Long Video Question Answering Dataset and Benchmark [55.30860239555001]
我々は、CinePileという新しいデータセットとベンチマークを提示する。
包括的データセットは305,000の多重選択質問(MCQ)から構成されており、様々な視覚的・マルチモーダル的な側面をカバーしている。
トレーニングスプリットに関して、オープンソースのVideo-LLMを微調整し、データセットのテストスプリット上で、オープンソースとプロプライエタリなビデオ中心LLMの両方を評価しました。
論文 参考訳(メタデータ) (2024-05-14T17:59:02Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Learning to Answer Visual Questions from Web Videos [89.71617065426146]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
詳細な評価のために、言語バイアスの低減と高品質なマニュアルアノテーションを備えた新しいビデオQAデータセットiVQAを紹介する。
論文 参考訳(メタデータ) (2022-05-10T16:34:26Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - NEWSKVQA: Knowledge-Aware News Video Question Answering [5.720640816755851]
我々は,ニュースビデオの文脈において,知識に基づく質問に答えることという,ビデオ質問応答の新しいフロンティアを探求する。
我々は156時間にまたがる12Kのニュースビデオの新しいデータセットを、8263のユニークなエンティティをカバーする100万の質問回答ペアでキュレートする。
本稿では,テキストによる複数選択質問やビデオ,その書き起こしや知識ベースに対するマルチモーダル推論を行う新しい手法NEWSKVQAを提案する。
論文 参考訳(メタデータ) (2022-02-08T17:31:31Z) - QVHighlights: Detecting Moments and Highlights in Videos via Natural
Language Queries [89.24431389933703]
Query-based Video Highlights (QVHighlights) データセットを提示する。
これは1万本以上のYouTubeビデオで構成され、幅広いトピックをカバーしている。
データセット内の各ビデオには、(1)人書き自由形式のNLクエリ、(2)クエリに関するビデオw.r.t.の関連モーメント、(3)クエリに関連するすべてのクリップに対する5ポイントスケールのサリエンシスコアが注釈付けされている。
論文 参考訳(メタデータ) (2021-07-20T16:42:58Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z) - Video Question Answering on Screencast Tutorials [43.00474548031818]
ソフトウェアのためのチュートリアルビデオから,質問,回答,コンテキストの3倍のデータセットを導入する。
ワンショット認識アルゴリズムは,映像質問応答の性能向上に役立つ視覚的手がかりを抽出するように設計されている。
論文 参考訳(メタデータ) (2020-08-02T19:27:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。