論文の概要: AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal
Reasoning
- arxiv url: http://arxiv.org/abs/2204.06105v1
- Date: Tue, 12 Apr 2022 22:30:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-14 13:25:25.196914
- Title: AGQA 2.0: An Updated Benchmark for Compositional Spatio-Temporal
Reasoning
- Title(参考訳): agqa 2.0: 構成時空間推論の更新ベンチマーク
- Authors: Madeleine Grunde-McLaughlin, Ranjay Krishna, Maneesh Agrawala
- Abstract要約: Action Genome Question Answering (AGQA)はそのようなベンチマークである。
我々は、いくつかの改善を加えたこのベンチマークのバージョンであるAGQA 2.0を紹介します。
- 参考スコア(独自算出の注目度): 45.60498204105834
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prior benchmarks have analyzed models' answers to questions about videos in
order to measure visual compositional reasoning. Action Genome Question
Answering (AGQA) is one such benchmark. AGQA provides a training/test split
with balanced answer distributions to reduce the effect of linguistic biases.
However, some biases remain in several AGQA categories. We introduce AGQA 2.0,
a version of this benchmark with several improvements, most namely a stricter
balancing procedure. We then report results on the updated benchmark for all
experiments.
- Abstract(参考訳): 以前のベンチマークでは、視覚的コンポジション推論を測定するために、ビデオに関する質問に対するモデルの回答を分析していた。
Action Genome Question Answering (AGQA)はそのようなベンチマークである。
AGQAは、言語バイアスの影響を低減するために、バランスの取れた回答分布を備えたトレーニング/テストの分割を提供する。
しかしながら、いくつかのAGQAカテゴリーにはバイアスが残っている。
我々は、このベンチマークのバージョンであるAGQA 2.0を紹介し、いくつかの改善、すなわち、より厳格なバランスをとる手順を紹介します。
そして、すべての実験のベンチマークを更新して結果を報告する。
関連論文リスト
- SQUARE: Automatic Question Answering Evaluation using Multiple Positive
and Negative References [73.67707138779245]
SQuArE (Sentence-level QUestion AnsweRing Evaluation) という新しい評価指標を提案する。
文レベルの抽出(回答選択)と生成(GenQA)の両方のQAシステムでSQuArEを評価する。
論文 参考訳(メタデータ) (2023-09-21T16:51:30Z) - ANetQA: A Large-scale Benchmark for Fine-grained Compositional Reasoning
over Untrimmed Videos [120.80589215132322]
ANetQAは,ActivityNetの未トリミングビデオに対して,詳細な合成推論をサポートする大規模ベンチマークである。
ANetQAは140億のアンバランスと1340万のバランスの取れたQAペアを達成した。
最高のモデルでは44.5%の精度が達成され、人間のパフォーマンスは84.5%に上り、改善の余地は十分残っている。
論文 参考訳(メタデータ) (2023-05-04T03:04:59Z) - RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question
Answering [87.18962441714976]
堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介します。
我々は、最先端の大規模言語モデルをゼロショット、少数ショット、微調整設定で評価し、RoMQAが難しいことを発見した。
以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的なテストを提供する。
論文 参考訳(メタデータ) (2022-10-25T21:39:36Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning [33.29431287523664]
合成時間的推論のピンポイント化のための新しいベンチマークを提案する。
AGQAには、9.6Kビデオのアンバランスな解答ペアが1億2200万ドルある。
人間の評価は、我々の質問と回答のペアの86.02%$を正し、最良のモデルは47.74%$の精度しか達成していない。
論文 参考訳(メタデータ) (2021-03-30T00:24:01Z) - Harvesting and Refining Question-Answer Pairs for Unsupervised QA [95.9105154311491]
教師なし質問回答(QA)を改善するための2つのアプローチを提案する。
まず、ウィキペディアから語彙的・構文的に異なる質問を抽出し、質問応答対のコーパスを自動的に構築する(RefQAと名づけられる)。
第2に、より適切な回答を抽出するためにQAモデルを活用し、RefQA上でデータを反復的に洗練する。
論文 参考訳(メタデータ) (2020-05-06T15:56:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。