論文の概要: AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning
- arxiv url: http://arxiv.org/abs/2103.16002v1
- Date: Tue, 30 Mar 2021 00:24:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:15:34.955614
- Title: AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning
- Title(参考訳): AGQA: 構成時空間推論のためのベンチマーク
- Authors: Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala
- Abstract要約: 合成時間的推論のピンポイント化のための新しいベンチマークを提案する。
AGQAには、9.6Kビデオのアンバランスな解答ペアが1億2200万ドルある。
人間の評価は、我々の質問と回答のペアの86.02%$を正し、最良のモデルは47.74%$の精度しか達成していない。
- 参考スコア(独自算出の注目度): 33.29431287523664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual events are a composition of temporal actions involving actors
spatially interacting with objects. When developing computer vision models that
can reason about compositional spatio-temporal events, we need benchmarks that
can analyze progress and uncover shortcomings. Existing video question
answering benchmarks are useful, but they often conflate multiple sources of
error into one accuracy metric and have strong biases that models can exploit,
making it difficult to pinpoint model weaknesses. We present Action Genome
Question Answering (AGQA), a new benchmark for compositional spatio-temporal
reasoning. AGQA contains $192M$ unbalanced question answer pairs for $9.6K$
videos. We also provide a balanced subset of $3.9M$ question answer pairs, $3$
orders of magnitude larger than existing benchmarks, that minimizes bias by
balancing the answer distributions and types of question structures. Although
human evaluators marked $86.02\%$ of our question-answer pairs as correct, the
best model achieves only $47.74\%$ accuracy. In addition, AGQA introduces
multiple training/test splits to test for various reasoning abilities,
including generalization to novel compositions, to indirect references, and to
more compositional steps. Using AGQA, we evaluate modern visual reasoning
systems, demonstrating that the best models barely perform better than
non-visual baselines exploiting linguistic biases and that none of the existing
models generalize to novel compositions unseen during training.
- Abstract(参考訳): 視覚イベントは、アクターがオブジェクトと空間的に相互作用する時間的アクションの合成である。
構成時空間事象を推論できるコンピュータビジョンモデルを開発するには、進捗を分析し、欠点を明らかにするベンチマークが必要である。
既存のビデオ質問応答ベンチマークは有用だが、複数のエラー源を1つの精度指標にまとめ、モデルが悪用できる強いバイアスを持つため、モデルの弱点を特定できないことが多い。
本稿では,合成時空間推論のための新しいベンチマークであるAction Genome Question Answering (AGQA)を提案する。
AGQAには、9.6Kドルのビデオ用のアンバランスな質問応答ペアがある。
また、既存のベンチマークよりも桁違いに大きい39万ドルの質問応答対のバランスの取れたサブセットを提供し、回答分布と質問構造の種類のバランスをとることでバイアスを最小限にする。
人間の評価は、質問応答対の86.02 %$を正し、最良のモデルは47.74 %$の精度しか達成していない。
さらに、agqaは複数のトレーニング/テスト分割を導入し、新しい構成への一般化、間接参照、より構成的なステップなど、さまざまな推論能力をテストする。
AGQAを用いて、現代の視覚的推論システムを評価し、最良のモデルが言語バイアスを生かした非視覚的ベースラインよりもわずかに優れた性能を示し、既存のモデルがトレーニング中に見つからない新しい構成に一般化されることを実証した。
関連論文リスト
- ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Measuring Compositional Consistency for Video Question Answering [32.6742789254609]
最近の質問ベンチマークは、最先端のモデルは構成的な疑問に答えるのに苦労していることを示している。
AGQADecompは、グラフごとの平均11.49ドルのサブクエストと、合計4.55Mドルの新しいサブクエストを含むベンチマークである。
モデルは、ほとんどの構成を通して正しく推論できないか、または答えに到達するために誤った推論に依存しているかのどちらかを見つけます。
論文 参考訳(メタデータ) (2022-04-14T18:52:34Z) - AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal
Reasoning [45.60498204105834]
Action Genome Question Answering (AGQA)はそのようなベンチマークである。
我々は、いくつかの改善を加えたこのベンチマークのバージョンであるAGQA 2.0を紹介します。
論文 参考訳(メタデータ) (2022-04-12T22:30:12Z) - Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking [30.155625852894797]
研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
論文 参考訳(メタデータ) (2021-10-11T11:08:35Z) - NOAHQA: Numerical Reasoning with Interpretable Graph Question Answering
Dataset [26.782937852417454]
複素数式を用いた数値推論を必要とする質問をバイリンガルなQAデータセットであるNOAHQAを紹介する。
我々は,NOAHQA上で既存のQAデータセットを用いてトレーニングした最先端QAモデルを評価し,その中の最良のものが55.5の正確なマッチスコアしか達成できないことを示す。
また、推論グラフの計量値が人間に比べて大きなギャップを持つような推論グラフを生成するための新しいQAモデルを提案する。
論文 参考訳(メタデータ) (2021-09-22T09:17:09Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Counterfactual Variable Control for Robust and Interpretable Question
Answering [57.25261576239862]
ディープニューラルネットワークに基づく質問応答(QA)モデルは、多くの場合、堅牢でも説明もできない。
本稿では、因果推論を用いてQAモデルのこのような突発的な「能力」を検証する。
本稿では,任意のショートカット相関を明示的に緩和する,CVC(Counterfactual Variable Control)という新しい手法を提案する。
論文 参考訳(メタデータ) (2020-10-12T10:09:05Z) - SQuINTing at VQA Models: Introspecting VQA Models with Sub-Questions [66.86887670416193]
現状のVQAモデルでは、知覚や推論の問題に答える上で同等の性能を持つが、一貫性の問題に悩まされていることを示す。
この欠点に対処するため、サブクエスト対応ネットワークチューニング(SQuINT)というアプローチを提案する。
我々は,SQuINTがモデル一貫性を5%向上し,VQAにおける推論問題の性能も改善し,注意マップも改善したことを示す。
論文 参考訳(メタデータ) (2020-01-20T01:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。