論文の概要: Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking
- arxiv url: http://arxiv.org/abs/2110.05159v1
- Date: Mon, 11 Oct 2021 11:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:13:51.450662
- Title: Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking
- Title(参考訳): beyond accuracy: visual question answering benchmarkingのための統合ツール
- Authors: Dirk V\"ath, Pascal Tilli and Ngoc Thang Vu
- Abstract要約: 研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
- 参考スコア(独自算出の注目度): 30.155625852894797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On the way towards general Visual Question Answering (VQA) systems that are
able to answer arbitrary questions, the need arises for evaluation beyond
single-metric leaderboards for specific datasets. To this end, we propose a
browser-based benchmarking tool for researchers and challenge organizers, with
an API for easy integration of new models and datasets to keep up with the
fast-changing landscape of VQA. Our tool helps test generalization capabilities
of models across multiple datasets, evaluating not just accuracy, but also
performance in more realistic real-world scenarios such as robustness to input
noise. Additionally, we include metrics that measure biases and uncertainty, to
further explain model behavior. Interactive filtering facilitates discovery of
problematic behavior, down to the data sample level. As proof of concept, we
perform a case study on four models. We find that state-of-the-art VQA models
are optimized for specific tasks or datasets, but fail to generalize even to
other in-domain test sets, for example they cannot recognize text in images.
Our metrics allow us to quantify which image and question embeddings provide
most robustness to a model. All code is publicly available.
- Abstract(参考訳): 任意の質問に答えられる一般的なビジュアル質問回答システム(VQA)に向かって、特定のデータセットに対する単一のメトリクスのリーダーボードを超えて評価する必要性が生じる。
そこで我々は,新しいモデルとデータセットを簡単に統合し,vqaの変化する状況に対応するためのapiを備えた,研究者や主催者のためのブラウザベースのベンチマークツールを提案する。
我々のツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ち、精度だけでなく、ノイズ入力に対するロバストネスなどの現実的なシナリオの性能も評価する。
さらに、モデルの振る舞いをさらに説明するために、バイアスと不確実性を測定するメトリクスも含んでいます。
インタラクティブフィルタリングは、データサンプルレベルまで、問題のある振る舞いの発見を容易にする。
概念実証として,4つのモデルのケーススタディを行う。
現状のVQAモデルは特定のタスクやデータセットに最適化されているが、例えば画像中のテキストを認識できないようなドメイン内テストセットにも一般化できない。
私たちのメトリクスは、どのイメージと質問の埋め込みがモデルに最も堅牢性をもたらすかを定量化できます。
すべてのコードは公開されている。
関連論文リスト
- UNK-VQA: A Dataset and A Probe into Multi-modal Large Models' Abstention
Ability [51.812099161015745]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - MetaStackVis: Visually-Assisted Performance Evaluation of Metamodels [4.640835690336652]
本稿では,メタStackVisと呼ばれる新しい可視化ツールを用いて,代替メタモデルがアンサンブルの積み重ね性能に与える影響について検討する。
我々のインタラクティブツールは、ユーザが予測可能な確率と複数のバリデーションメトリクスに応じて、異なる特異点とペアのメタモデルを視覚的に探索し、特定の問題のあるデータインスタンスを予測するのに役立つ。
論文 参考訳(メタデータ) (2022-12-07T09:38:02Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z) - ManyModalQA: Modality Disambiguation and QA over Diverse Inputs [73.93607719921945]
本稿では, エージェントが3つの異なるモダリティを考慮し, 質問に答えなければならない, マルチモーダルな質問応答課題, ManyModalQAを提案する。
われわれはウィキペディアをスクラップしてデータを収集し、クラウドソーシングを利用して質問と回答のペアを収集する。
論文 参考訳(メタデータ) (2020-01-22T14:39:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。