論文の概要: Can you even tell left from right? Presenting a new challenge for VQA
- arxiv url: http://arxiv.org/abs/2203.07664v1
- Date: Tue, 15 Mar 2022 05:58:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 12:38:52.220940
- Title: Can you even tell left from right? Presenting a new challenge for VQA
- Title(参考訳): 右から左を言えますか?
vqaの新たな課題の提示
- Authors: Sai Raam Venkatraman, Rishi Rao, S. Balasubramanian, Chandra Sekhar
Vorugunti, R. Raghunatha Sarma
- Abstract要約: VQA(Visual Question Answering)のための合成データセットであるUncommon Objects in Unseen Configuration (UOUC)を提案する。
UOUCはかなり複雑だが、構成的にもよく分離されている。
UOUCの列車セットは20万のシーンで構成され、テストセットは30,000のシーンで構成されている。
- 参考スコア(独自算出の注目度): 4.175654562922819
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual Question Answering (VQA) needs a means of evaluating the strengths and
weaknesses of models. One aspect of such an evaluation is the evaluation of
compositional generalisation, or the ability of a model to answer well on
scenes whose scene-setups are different from the training set. Therefore, for
this purpose, we need datasets whose train and test sets differ significantly
in composition. In this work, we present several quantitative measures of
compositional separation and find that popular datasets for VQA are not good
evaluators. To solve this, we present Uncommon Objects in Unseen Configurations
(UOUC), a synthetic dataset for VQA. UOUC is at once fairly complex while also
being well-separated, compositionally. The object-class of UOUC consists of 380
clasess taken from 528 characters from the Dungeons and Dragons game. The train
set of UOUC consists of 200,000 scenes; whereas the test set consists of 30,000
scenes. In order to study compositional generalisation, simple reasoning and
memorisation, each scene of UOUC is annotated with up to 10 novel questions.
These deal with spatial relationships, hypothetical changes to scenes,
counting, comparison, memorisation and memory-based reasoning. In total, UOUC
presents over 2 million questions. UOUC also finds itself as a strong challenge
to well-performing models for VQA. Our evaluation of recent models for VQA
shows poor compositional generalisation, and comparatively lower ability
towards simple reasoning. These results suggest that UOUC could lead to
advances in research by being a strong benchmark for VQA.
- Abstract(参考訳): 視覚的質問応答(vqa)には,モデルの強みと弱みを評価する手段が必要である。
このような評価の1つの側面は、構成的一般化の評価や、トレーニングセットとは異なるシーンでモデルがうまく答えられる能力である。
したがって、この目的のために、列車とテストセットが構成的に大きく異なるデータセットが必要である。
そこで本研究では,VQAの一般的なデータセットが優れた評価指標ではないことを示す。
この問題を解決するために、VQAのための合成データセットであるUncommon Objects in Unseen Configurations (UOUC)を提案する。
UOUCはかなり複雑だが、構成的にもよく分離されている。
UOUCのオブジェクトクラスはダンジョンズ&ドラゴンズゲームから528文字の380クレーゼで構成されている。
uoucの列車は20万シーンからなるが、テストセットは30,000シーンで構成される。
作曲の一般化、単純な推論、暗記を研究するために、UOUCの各シーンには最大10の新たな質問が注釈付けされている。
これらは空間的関係、場面への仮説的変化、数え上げ、比較、記憶、記憶に基づく推論を扱う。
UOUCは合計で200万以上の質問を出している。
UOUCはまた、VQAのモデルの性能向上に強い挑戦だと考えている。
近年のVQAモデルの評価では,構成的一般化が乏しく,単純な推論に対する能力は比較的低い。
これらの結果から,UOUCはVQAの強力なベンチマークとして研究の進展につながる可能性が示唆された。
関連論文リスト
- COLUMBUS: Evaluating COgnitive Lateral Understanding through Multiple-choice reBUSes [14.603382370403]
視覚的側方思考を多選択質問応答タスクとして定式化する。
タスク例をインスタンス化するための3段階の分類駆動手法について述べる。
テキストとアイコンのリバスパズルを用いたQAセット作成にタスクパイプラインを適用した総合ベンチマークであるCOLUMBUSを開発した。
論文 参考訳(メタデータ) (2024-09-06T06:49:55Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - NuScenes-QA: A Multi-modal Visual Question Answering Benchmark for
Autonomous Driving Scenario [77.14723238359318]
NuScenesQAは、自動運転シナリオにおけるVQAの最初のベンチマークであり、34Kの視覚シーンと460Kの質問応答ペアを含んでいる。
既存の3D検出アノテーションを利用してシーングラフと質問テンプレートを手動で作成する。
先進的な3D検出とVQA技術を用いた一連のベースラインを開発する。
論文 参考訳(メタデータ) (2023-05-24T07:40:50Z) - Toward Unsupervised Realistic Visual Question Answering [70.67698100148414]
現実的なVQA(RVQA)の問題について検討し、モデルが答えられない質問(UQ)を拒絶し、答えられる質問(AQ)に答えなければならない。
1)データセットには不整合UQが多すぎること,(2)多数の注釈付きUQがトレーニングに必要とされること,の2つの欠点を最初に指摘した。
我々は、既存のVQAデータセットのAQと約29万の人間の注釈付きUQを組み合わせた新しいテストデータセットRGQAを提案する。
これは、画像と質問をランダムにペアリングして得られる擬似UQと、それを結合する。
論文 参考訳(メタデータ) (2023-03-09T06:58:29Z) - BinaryVQA: A Versatile Test Set to Evaluate the Out-of-Distribution
Generalization of VQA Models [47.64219291655723]
我々は,VQAモデルの限界を押し上げるために,BinaryVQA(BinaryVQA)と呼ばれる視覚的質問応答のための新しいテストセットを導入する。
私たちのデータセットには1,024のイメージに7,800の質問が含まれており、さまざまなオブジェクト、トピック、コンセプトをカバーしています。
質問の約63%は肯定的な回答を持っている。
論文 参考訳(メタデータ) (2023-01-28T00:03:44Z) - When and why vision-language models behave like bags-of-words, and what
to do about it? [39.90099818890488]
我々は、VLMが様々な種類の関係、属性、順序を理解する能力を評価するために、属性、関係、順序のベンチマークを作成します。
AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。
我々は、最先端のVLMが、リレーショナル理解が不十分で、オブジェクトを属性にリンクする場合に、ブルンダーが可能であることを示し、注文感度の深刻な欠如を示す。
論文 参考訳(メタデータ) (2022-10-04T22:13:25Z) - A-OKVQA: A Benchmark for Visual Question Answering using World Knowledge [39.788346536244504]
A-OKVQAは、約25万の質問からなるクラウドソーシングデータセットである。
我々は、この新たなデータセットの可能性について、その内容の詳細な分析を通して示す。
論文 参考訳(メタデータ) (2022-06-03T17:52:27Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - AGQA: A Benchmark for Compositional Spatio-Temporal Reasoning [33.29431287523664]
合成時間的推論のピンポイント化のための新しいベンチマークを提案する。
AGQAには、9.6Kビデオのアンバランスな解答ペアが1億2200万ドルある。
人間の評価は、我々の質問と回答のペアの86.02%$を正し、最良のモデルは47.74%$の精度しか達成していない。
論文 参考訳(メタデータ) (2021-03-30T00:24:01Z) - Contrast and Classify: Training Robust VQA Models [60.80627814762071]
本稿では,クロスエントロピーとコントラスト損失の両方を最適化する新しいトレーニングパラダイム(ConClaT)を提案する。
双方の損失を -- 交互に,あるいは共同で -- 最適化することが,効果的なトレーニングの鍵であることに気付きました。
論文 参考訳(メタデータ) (2020-10-13T00:23:59Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。