論文の概要: Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization
- arxiv url: http://arxiv.org/abs/2205.12191v2
- Date: Sat, 1 Apr 2023 07:07:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-05 01:24:18.434096
- Title: Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization
- Title(参考訳): 視覚的質問応答における評価手法の再評価--アウトオブディストリビューション一般化を事例として
- Authors: Aishwarya Agrawal, Ivana Kaji\'c, Emanuele Bugliarello, Elnaz Davoodi,
Anita Gergely, Phil Blunsom, Aida Nematzadeh
- Abstract要約: 大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
- 参考スコア(独自算出の注目度): 27.437077941786768
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-and-language (V&L) models pretrained on large-scale multimodal data
have demonstrated strong performance on various tasks such as image captioning
and visual question answering (VQA). The quality of such models is commonly
assessed by measuring their performance on unseen data that typically comes
from the same distribution as the training data. However, when evaluated under
out-of-distribution (out-of-dataset) settings for VQA, we observe that these
models exhibit poor generalization. We comprehensively evaluate two pretrained
V&L models under different settings (i.e. classification and open-ended text
generation) by conducting cross-dataset evaluations. We find that these models
tend to learn to solve the benchmark, rather than learning the high-level
skills required by the VQA task. We also find that in most cases generative
models are less susceptible to shifts in data distribution compared to
discriminative ones, and that multimodal pretraining is generally helpful for
OOD generalization. Finally, we revisit assumptions underlying the use of
automatic VQA evaluation metrics, and empirically show that their stringent
nature repeatedly penalizes models for correct responses.
- Abstract(参考訳): 大規模マルチモーダルデータに基づく視覚言語モデル(v&l)は,画像キャプションや視覚質問応答(vqa)など,さまざまなタスクにおいて強力なパフォーマンスを示している。
このようなモデルの品質は、通常トレーニングデータと同じ分布から得られる見えないデータ上でのパフォーマンスを測定することで評価される。
しかし、vqaのアウト・オブ・ディストリビューション(out-of-dataset)設定下で評価すると、これらのモデルが一般化に乏しいことが分かる。
我々は、異なる設定(分類とオープンエンドテキスト生成)で事前訓練された2つのV&Lモデルを包括的に評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
また、ほとんどの場合、生成モデルは差別的モデルに比べてデータ分布の変化の影響を受けにくく、マルチモーダル事前学習は一般的にOODの一般化に役立ちます。
最後に,VQA自動評価指標の使用を前提とした仮定を再検討し,その厳密な性質が正しい応答のモデルに繰り返し適用されることを実証的に示す。
関連論文リスト
- Detecting Multimodal Situations with Insufficient Context and Abstaining from Baseless Predictions [75.45274978665684]
VLU(Vision-Language Understanding)ベンチマークには、提供されたコンテキストによってサポートされない仮定に答えが依存するサンプルが含まれている。
サンプル毎にコンテキストデータを収集し,エビデンスに基づくモデル予測を促進するためにコンテキスト選択モジュールをトレーニングする。
我々は,十分なコンテキストを欠いたサンプルを同定し,モデル精度を向上させる汎用なコンテキスト・アワレ認識検出器を開発した。
論文 参考訳(メタデータ) (2024-05-18T02:21:32Z) - BloomVQA: Assessing Hierarchical Multi-modal Comprehension [18.21961616174999]
我々は、様々なレベルの理解を反映した絵物語に基づいて、複数の選択サンプルを収集する。
モデル一貫性を特徴付ける新しい尺度と自動データ拡張を可能にする新しい階層グラフ表現にマッピングする。
従来のモデルと比較して、GPT-4Vは全ての理解レベルよりも精度が向上し、特に高次タスクでは視覚入力をバイパスする傾向を示す。
論文 参考訳(メタデータ) (2023-12-20T02:22:49Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - CONVIQT: Contrastive Video Quality Estimator [63.749184706461826]
知覚ビデオ品質評価(VQA)は、多くのストリーミングおよびビデオ共有プラットフォームにおいて不可欠な要素である。
本稿では,視覚的に関連のある映像品質表現を自己指導的に学習する問題について考察する。
本研究は, 自己教師型学習を用いて, 知覚力による説得力のある表現が得られることを示す。
論文 参考訳(メタデータ) (2022-06-29T15:22:01Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - MUTANT: A Training Paradigm for Out-of-Distribution Generalization in
Visual Question Answering [58.30291671877342]
MUTANTは、モデルが知覚的に類似しているが意味的に異なる入力の変異に露出する訓練パラダイムである。
MUTANTは、VQA-CPに新しい最先端の精度を確立し、10.57%$改善した。
論文 参考訳(メタデータ) (2020-09-18T00:22:54Z) - Counterfactual Samples Synthesizing for Robust Visual Question Answering [104.72828511083519]
モデルに依存しない対実サンプル合成(CSS)トレーニングスキームを提案する。
CSSは、画像や質問の言葉で重要なオブジェクトをマスキングすることで、多数の偽物トレーニングサンプルを生成する。
VQA-CP v2では58.95%,6.5%向上した。
論文 参考訳(メタデータ) (2020-03-14T08:34:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。