論文の概要: NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions
- arxiv url: http://arxiv.org/abs/2105.08276v1
- Date: Tue, 18 May 2021 04:56:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-19 14:15:08.706492
- Title: NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions
- Title(参考訳): NExT-QA: 時間的行動の説明に対する質問のNext Phase
- Authors: Junbin Xiao, Xindi Shang, Angela Yao and Tat-Seng Chua
- Abstract要約: NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
- 参考スコア(独自算出の注目度): 80.60423934589515
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce NExT-QA, a rigorously designed video question answering
(VideoQA) benchmark to advance video understanding from describing to
explaining the temporal actions. Based on the dataset, we set up multi-choice
and open-ended QA tasks targeting causal action reasoning, temporal action
reasoning, and common scene comprehension. Through extensive analysis of
baselines and established VideoQA techniques, we find that top-performing
methods excel at shallow scene descriptions but are weak in causal and temporal
action reasoning. Furthermore, the models that are effective on multi-choice
QA, when adapted to open-ended QA, still struggle in generalizing the answers.
This raises doubt on the ability of these models to reason and highlights
possibilities for improvement. With detailed results for different question
types and heuristic observations for future works, we hope NExT-QA will guide
the next generation of VQA research to go beyond superficial scene description
towards a deeper understanding of videos. (The dataset and related resources
are available at https://github.com/doc-doc/NExT-QA.git)
- Abstract(参考訳): ビデオ質問応答(VideoQA)ベンチマークであるNExT-QAを導入し,映像理解の促進と時間的行動の説明を行う。
本データセットに基づいて,因果行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを設定した。
ベースラインの広範囲な解析とビデオQA手法の確立により, 浅いシーン記述では高い性能を示すが, 因果的・時間的行動推論では弱いことがわかった。
さらに, 複数選択QAに適応したモデルでは, 解の一般化に苦慮している。
これにより、これらのモデルが改善の可能性を推論し強調する能力に疑問が持ち上がっている。
NExT-QAが次世代のVQA研究を指導し、表面的なシーン記述を超えて、ビデオのより深い理解へと進むことを願っている。
(データセットと関連するリソースはhttps://github.com/doc-doc/NExT-QA.git)。
関連論文リスト
- Can I Trust Your Answer? Visually Grounded Video Question Answering [88.11169242115416]
本稿では,ビデオ言語理解のための事前学習技術を活用したビデオQAについて検討する。
NExT-GQA - NExT-QAの拡張で、10.5$K$の時間的グラウンドラベルを元のQAペアに結び付ける。
論文 参考訳(メタデータ) (2023-09-04T03:06:04Z) - Open-vocabulary Video Question Answering: A New Benchmark for Evaluating
the Generalizability of Video Question Answering Models [15.994664381976984]
我々は,ビデオQAモデルの一般化性を評価するために,OVQA(Open-vocabulary Video Question Answering)という新しいベンチマークを導入する。
さらに,本論文では,稀かつ未確認な回答の予測を向上する,新しいGNNベースのソフト・ボーダライザを提案する。
我々のアブレーション研究と定性的な分析により,GNNに基づくソフト・ボーダライザがモデル性能をさらに向上することが示された。
論文 参考訳(メタデータ) (2023-08-18T07:45:10Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - Locate before Answering: Answer Guided Question Localization for Video
Question Answering [70.38700123685143]
LocAnsは質問ロケータと回答予測器をエンドツーエンドモデルに統合する。
最新の2つのビデオQAデータセットで最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-10-05T08:19:16Z) - Invariant Grounding for Video Question Answering [72.87173324555846]
Video Question Answering (ビデオQA)は、ビデオに関する質問に答えるタスクである。
先行するビデオQAモデルでは、典型的な学習目標である経験的リスク最小化(ERM)が、ビデオクエストペアと回答の間の表面的相関に基づく。
Invariant Grounding for VideoQA (IGV) という新たな学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-06-06T04:37:52Z) - Video Question Answering: Datasets, Algorithms and Challenges [99.9179674610955]
Video Question Answering (VideoQA) は、与えられたビデオに応じて自然言語の質問に答えることを目的としている。
本稿では、データセット、アルゴリズム、ユニークな課題に焦点を当てた、ビデオQAの明確な分類と包括的分析を提供する。
論文 参考訳(メタデータ) (2022-03-02T16:34:09Z) - End-to-End Video Question-Answer Generation with Generator-Pretester
Network [27.31969951281815]
マルチメディアにおけるビデオ質問応答(VQA)課題に対するビデオ質問応答生成(VQAG)の課題について検討する。
キャプションはビデオを完全に表現してはいないし、実際に利用できないので、VQAG(Video Question-Answer Generation)によるビデオに基づいて質問対を生成することが不可欠である。
我々は,現在利用可能な2つの大規模ビデオQAデータセットで評価し,最先端の質問生成性能を実現する。
論文 参考訳(メタデータ) (2021-01-05T10:46:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。