論文の概要: Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models
- arxiv url: http://arxiv.org/abs/2308.09363v1
- Date: Fri, 18 Aug 2023 07:45:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 14:06:43.851241
- Title: Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models
- Title(参考訳): open-vocabulary video question answering: ビデオ質問応答モデルの一般化性評価のための新しいベンチマーク
- Authors: Dohwan Ko, Ji Soo Lee, Miso Choi, Jaewon Chu, Jihwan Park, Hyunwoo J.
Kim
- Abstract要約: 我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
- 参考スコア(独自算出の注目度): 15.994664381976984
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Question Answering (VideoQA) is a challenging task that entails complex
multi-modal reasoning. In contrast to multiple-choice VideoQA which aims to
predict the answer given several options, the goal of open-ended VideoQA is to
answer questions without restricting candidate answers. However, the majority
of previous VideoQA models formulate open-ended VideoQA as a classification
task to classify the video-question pairs into a fixed answer set, i.e.,
closed-vocabulary, which contains only frequent answers (e.g., top-1000
answers). This leads the model to be biased toward only frequent answers and
fail to generalize on out-of-vocabulary answers. We hence propose a new
benchmark, Open-vocabulary Video Question Answering (OVQA), to measure the
generalizability of VideoQA models by considering rare and unseen answers. In
addition, in order to improve the model's generalization power, we introduce a
novel GNN-based soft verbalizer that enhances the prediction on rare and unseen
answers by aggregating the information from their similar words. For
evaluation, we introduce new baselines by modifying the existing
(closed-vocabulary) open-ended VideoQA models and improve their performances by
further taking into account rare and unseen answers. Our ablation studies and
qualitative analyses demonstrate that our GNN-based soft verbalizer further
improves the model performance, especially on rare and unseen answers. We hope
that our benchmark OVQA can serve as a guide for evaluating the
generalizability of VideoQA models and inspire future research. Code is
available at https://github.com/mlvlab/OVQA.
- Abstract(参考訳): video question answering (videoqa)は複雑なマルチモーダル推論を伴う困難なタスクである。
複数の選択肢が与えられた回答を予測することを目的としたマルチ選択ビデオQAとは対照的に、オープンエンドビデオQAの目標は、候補者の回答を制限することなく質問に答えることである。
しかし、以前のビデオQAモデルの大半は、ビデオ検索ペアを固定された回答セット、すなわち、頻繁な回答のみを含むクローズド語彙に分類するための分類タスクとして、オープンエンドビデオQAを定式化した。
これにより、モデルは頻繁な回答のみに偏り、語彙外回答の一般化に失敗する。
そこで,本研究では,ビデオQAモデルの一般化可能性を評価するために,希少かつ未確認の回答を考慮し,新しい評価基準であるOVQAを提案する。
また,モデルの一般化能力を向上させるために,類似した単語から情報を集約することで,稀で見当たらない回答の予測を向上する,新しいGNNベースのソフト弁解器を導入する。
評価のために,既存の(クローズド語彙の)オープンエンドビデオQAモデルを変更することで新たなベースラインを導入する。
我々のアブレーション研究と定性的分析により,gnnベースのソフト・バーナライザは,特に希少かつ未発見の回答において,モデル性能をさらに向上させることが示された。
我々は、我々のベンチマークOVQAが、ビデオQAモデルの一般化可能性を評価し、将来の研究を刺激するガイドになることを期待している。
コードはhttps://github.com/mlvlab/OVQA.comで入手できる。
関連論文リスト
- GSQA: An End-to-End Model for Generative Spoken Question Answering [54.418723701886115]
本稿では,システムに抽象的推論を強制するGSQA(Generative Spoken Question Answering)モデルを提案する。
本モデルでは, 抽出QAデータセットにおいて, 従来の抽出モデルよりも3%上回っている。
我々のGSQAモデルは、幅広い質問に一般化する可能性を示し、それによって、抽象的QAの音声質問応答能力をさらに拡張する。
論文 参考訳(メタデータ) (2023-12-15T13:33:18Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Video Question Answering with Iterative Video-Text Co-Tokenization [77.66445727743508]
本稿では,ビデオ質問応答のための新しいマルチストリームビデオエンコーダを提案する。
実験により,MSRVTT-QA,MSVD-QA,IVQAなどの複数のデータセットでモデルを評価する。
本稿では,必要なGFLOPを150-360から67に削減し,高効率なビデオ質問応答モデルを構築した。
論文 参考訳(メタデータ) (2022-08-01T15:35:38Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - Video Question Answering with Phrases via Semantic Roles [40.72894813542082]
ビデオ質問回答(VidQA)評価指標は、単一の単語の回答や、固定されたフレーズセットからフレーズを選択することに限定されています。
我々は、ビデオ記述から派生した意味的役割を利用して、特定のフレーズを隠ぺいし、vidqaを補足するvidqapを導入する。
論文 参考訳(メタデータ) (2021-04-08T13:27:43Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z) - Just Ask: Learning to Answer Questions from Millions of Narrated Videos [97.44376735445454]
我々は手動のアノテーションを回避し、ビデオ質問応答のための大規模なトレーニングデータセットを生成することを提案する。
我々は、テキストデータに基づいて訓練された質問生成変換器を利用して、書き起こされたビデオナレーションから質問応答ペアを生成する。
本手法は,MSRVTT-QA,MSVD-QA,ActivityNet-QA,How2QAにおいて高い性能を示す。
論文 参考訳(メタデータ) (2020-12-01T12:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。