論文の概要: Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking
- arxiv url: http://arxiv.org/abs/2110.05159v1
- Date: Mon, 11 Oct 2021 11:08:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 15:13:51.450662
- Title: Beyond Accuracy: A Consolidated Tool for Visual Question Answering
Benchmarking
- Title(参考訳): beyond accuracy: visual question answering benchmarkingのための統合ツール
- Authors: Dirk V\"ath, Pascal Tilli and Ngoc Thang Vu
- Abstract要約: 研究者や主催者を対象としたブラウザベースのベンチマークツールを提案する。
私たちのツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ちます。
対話的フィルタリングは問題のある振る舞いの発見を促進する。
- 参考スコア(独自算出の注目度): 30.155625852894797
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: On the way towards general Visual Question Answering (VQA) systems that are
able to answer arbitrary questions, the need arises for evaluation beyond
single-metric leaderboards for specific datasets. To this end, we propose a
browser-based benchmarking tool for researchers and challenge organizers, with
an API for easy integration of new models and datasets to keep up with the
fast-changing landscape of VQA. Our tool helps test generalization capabilities
of models across multiple datasets, evaluating not just accuracy, but also
performance in more realistic real-world scenarios such as robustness to input
noise. Additionally, we include metrics that measure biases and uncertainty, to
further explain model behavior. Interactive filtering facilitates discovery of
problematic behavior, down to the data sample level. As proof of concept, we
perform a case study on four models. We find that state-of-the-art VQA models
are optimized for specific tasks or datasets, but fail to generalize even to
other in-domain test sets, for example they cannot recognize text in images.
Our metrics allow us to quantify which image and question embeddings provide
most robustness to a model. All code is publicly available.
- Abstract(参考訳): 任意の質問に答えられる一般的なビジュアル質問回答システム(VQA)に向かって、特定のデータセットに対する単一のメトリクスのリーダーボードを超えて評価する必要性が生じる。
そこで我々は,新しいモデルとデータセットを簡単に統合し,vqaの変化する状況に対応するためのapiを備えた,研究者や主催者のためのブラウザベースのベンチマークツールを提案する。
我々のツールは、複数のデータセットにわたるモデルの一般化機能をテストするのに役立ち、精度だけでなく、ノイズ入力に対するロバストネスなどの現実的なシナリオの性能も評価する。
さらに、モデルの振る舞いをさらに説明するために、バイアスと不確実性を測定するメトリクスも含んでいます。
インタラクティブフィルタリングは、データサンプルレベルまで、問題のある振る舞いの発見を容易にする。
概念実証として,4つのモデルのケーススタディを行う。
現状のVQAモデルは特定のタスクやデータセットに最適化されているが、例えば画像中のテキストを認識できないようなドメイン内テストセットにも一般化できない。
私たちのメトリクスは、どのイメージと質問の埋め込みがモデルに最も堅牢性をもたらすかを定量化できます。
すべてのコードは公開されている。
関連論文リスト
- Dynamic Intelligence Assessment: Benchmarking LLMs on the Road to AGI with a Focus on Model Confidence [3.566250952750758]
我々は、AIモデルをテストするための新しい方法論であるDynamic Intelligence Assessment (DIA)を紹介する。
我々のフレームワークは、複数の試みにまたがってモデルの信頼性と信頼性を評価するために、4つの新しいメトリクスを導入します。
付随するDIA-Benchデータセットは、テキスト、PDF、コンパイルされたバイナリ、視覚パズルなど、さまざまなフォーマットで表示される。
論文 参考訳(メタデータ) (2024-10-20T20:07:36Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - UNK-VQA: A Dataset and a Probe into the Abstention Ability of Multi-modal Large Models [55.22048505787125]
本稿ではUNK-VQAと呼ばれる包括的データセットを提案する。
まず、画像または疑問について意図的に摂動することで、既存のデータを拡大する。
そこで我々は,新たなマルチモーダル大規模モデルのゼロショット性能と少数ショット性能を広範囲に評価した。
論文 参考訳(メタデータ) (2023-10-17T02:38:09Z) - Chain-of-Skills: A Configurable Model for Open-domain Question Answering [79.8644260578301]
検索モデルは、現実世界の知識集約的なタスクに欠かせない要素である。
最近の研究はカスタマイズされたメソッドに焦点を合わせ、モデルの転送可能性とスケーラビリティを制限している。
本稿では,各モジュールがデータセット間で再利用可能なキースキルに対応するモジュールレトリバーを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:19:39Z) - SimVQA: Exploring Simulated Environments for Visual Question Answering [15.030013924109118]
視覚空間と言語空間を完全に制御するために,合成コンピュータ生成データを用いて検討する。
我々は、実世界のVQAベンチマークにおける合成データの効果を定量化し、実際のデータに一般化する結果を生成する。
VQAモデルをよりドメイン不変にするために、トレーニング中にオブジェクトレベルの機能をランダムに切り替える機能スワッピング(F-SWAP)を提案する。
論文 参考訳(メタデータ) (2022-03-31T17:44:27Z) - Challenges in Procedural Multimodal Machine Comprehension:A Novel Way To
Benchmark [14.50261153230204]
M3C(Multimodal Machine Reading)に注目し、与えられた文節(または文脈)に基づいてモデルが質問に答えることを期待する。
大規模深層モデルの問合せ生成過程と暗記能力から生じる3つの臨界バイアスを同定する。
3つの制御ノブを通してこれらのバイアスに対処するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2021-10-22T16:33:57Z) - Human-Adversarial Visual Question Answering [62.30715496829321]
我々は、最先端のVQAモデルと人間工学の例を比較検討する。
これらの例で評価すると,多種多様な最先端モデルの性能が低下していることが分かる。
論文 参考訳(メタデータ) (2021-06-04T06:25:32Z) - Generating Diverse and Consistent QA pairs from Contexts with
Information-Maximizing Hierarchical Conditional VAEs [62.71505254770827]
非構造化テキストを文脈として与えられたQAペアを生成するための条件付き変分オートエンコーダ(HCVAE)を提案する。
我々のモデルは、トレーニングにわずかなデータしか使わず、両方のタスクの全てのベースラインに対して印象的なパフォーマンス向上が得られる。
論文 参考訳(メタデータ) (2020-05-28T08:26:06Z) - Robust Question Answering Through Sub-part Alignment [53.94003466761305]
我々はアライメント問題として質問応答をモデル化する。
私たちは、SQuAD v1.1でモデルをトレーニングし、いくつかの逆および外ドメインデータセットでそれをテストします。
論文 参考訳(メタデータ) (2020-04-30T09:10:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。