論文の概要: ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos
- arxiv url: http://arxiv.org/abs/2305.02519v1
- Date: Thu, 4 May 2023 03:04:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-05 17:17:54.727282
- Title: ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos
- Title(参考訳): ANetQA: 未編集ビデオに対するきめ細かい合成推論のための大規模ベンチマーク
- Authors: Zhou Yu, Lixiang Zheng, Zhou Zhao, Fei Wu, Jianping Fan, Kui Ren, Jun
Yu
- Abstract要約: ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
- 参考スコア(独自算出の注目度): 120.80589215132322
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Building benchmarks to systemically analyze different capabilities of video
question answering (VideoQA) models is challenging yet crucial. Existing
benchmarks often use non-compositional simple questions and suffer from
language biases, making it difficult to diagnose model weaknesses incisively. A
recent benchmark AGQA poses a promising paradigm to generate QA pairs
automatically from pre-annotated scene graphs, enabling it to measure diverse
reasoning abilities with granular control. However, its questions have
limitations in reasoning about the fine-grained semantics in videos as such
information is absent in its scene graphs. To this end, we present ANetQA, a
large-scale benchmark that supports fine-grained compositional reasoning over
the challenging untrimmed videos from ActivityNet. Similar to AGQA, the QA
pairs in ANetQA are automatically generated from annotated video scene graphs.
The fine-grained properties of ANetQA are reflected in the following: (i)
untrimmed videos with fine-grained semantics; (ii) spatio-temporal scene graphs
with fine-grained taxonomies; and (iii) diverse questions generated from
fine-grained templates. ANetQA attains 1.4 billion unbalanced and 13.4 million
balanced QA pairs, which is an order of magnitude larger than AGQA with a
similar number of videos. Comprehensive experiments are performed for
state-of-the-art methods. The best model achieves 44.5% accuracy while human
performance tops out at 84.5%, leaving sufficient room for improvement.
- Abstract(参考訳): ビデオ質問応答(VideoQA)モデルのさまざまな機能を体系的に分析するベンチマークを構築することは、非常に難しい。
既存のベンチマークでは、非コンポジション的な単純な質問や言語バイアスに苦しむことが多いため、モデルの弱点を切迫的に診断することは困難である。
最近のベンチマークAGQAは、事前に注釈付けされたシーングラフからQAペアを自動的に生成し、粒度の制御で様々な推論能力を測定するという有望なパラダイムを採っている。
しかし、その質問は、シーングラフに情報がないため、ビデオの細かなセマンティクスについての推論に制限がある。
この目的のために,ActivityNetの未編集ビデオに対して,詳細な合成推論をサポートする大規模ベンチマークANetQAを提案する。
AGQAと同様に、ANetQAのQAペアは、注釈付きビデオシーングラフから自動的に生成される。
ANetQAの細粒度特性を以下に反映する。
(i)きめ細かな意味を持つ未編集ビデオ
(ii)細粒度の分類を施した時空間的シーングラフ、
(iii)細粒度テンプレートから生じる多様な質問。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最先端手法の総合実験を行う。
最高のモデルは44.5%の精度で、人間のパフォーマンスは84.5%で、改善の余地は十分にある。
関連論文リスト
- NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Learning Situation Hyper-Graphs for Video Question Answering [95.18071873415556]
本稿では,映像コンテンツに関する質問に対して,状況のハイパーグラフを予測して回答できるVQAアーキテクチャを提案する。
我々は、暗黙的にグラフ表現を識別する状況ハイパーグラフデコーダを訓練し、入力されたビデオクリップからオブジェクトとオブジェクトの関係を判断する。
以上の結果から,ビデオ質問応答タスクにおける課題に対して,ハイパーグラフの学習がシステムの性能向上に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-04-18T01:23:11Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - NExT-QA:Next Phase of Question-Answering to Explaining Temporal Actions [80.60423934589515]
NExT-QAは、厳密に設計されたビデオ質問回答(VideoQA)ベンチマークです。
因果的行動推論,時間的行動推論,共通場面理解を対象とする複数選択およびオープンエンドQAタスクを構築した。
トップパフォーマンスの手法は浅い場面記述に優れているが、因果的および時間的行動推論に弱い。
論文 参考訳(メタデータ) (2021-05-18T04:56:46Z) - AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning [33.29431287523664]
合成時間的推論のピンポイント化のための新しいベンチマークを提案する。
AGQAには、9.6Kビデオのアンバランスな解答ペアが1億2200万ドルある。
人間の評価は、我々の質問と回答のペアの86.02%$を正し、最良のモデルは47.74%$の精度しか達成していない。
論文 参考訳(メタデータ) (2021-03-30T00:24:01Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。