論文の概要: Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To?
- arxiv url: http://arxiv.org/abs/2006.05121v3
- Date: Wed, 7 Apr 2021 14:13:35 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:02:32.071096
- Title: Roses Are Red, Violets Are Blue... but Should Vqa Expect Them To?
- Title(参考訳): バラは赤、バイオレットは青...でもVqaは期待すべき?
- Authors: Corentin Kervadec (LIRIS), Grigory Antipov (Orange), Moez Baccouche
(Orange), Christian Wolf (LIRIS)
- Abstract要約: ドメイン内精度を総合的に測定する標準評価基準は誤解を招くものであると論じる。
これらの問題を克服するためのGQA-OODベンチマークを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models for Visual Question Answering (VQA) are notorious for their tendency
to rely on dataset biases, as the large and unbalanced diversity of questions
and concepts involved and tends to prevent models from learning to reason,
leading them to perform educated guesses instead. In this paper, we claim that
the standard evaluation metric, which consists in measuring the overall
in-domain accuracy, is misleading. Since questions and concepts are unbalanced,
this tends to favor models which exploit subtle training set statistics.
Alternatively, naively introducing artificial distribution shifts between train
and test splits is also not completely satisfying. First, the shifts do not
reflect real-world tendencies, resulting in unsuitable models; second, since
the shifts are handcrafted, trained models are specifically designed for this
particular setting, and do not generalize to other configurations. We propose
the GQA-OOD benchmark designed to overcome these concerns: we measure and
compare accuracy over both rare and frequent question-answer pairs, and argue
that the former is better suited to the evaluation of reasoning abilities,
which we experimentally validate with models trained to more or less exploit
biases. In a large-scale study involving 7 VQA models and 3 bias reduction
techniques, we also experimentally demonstrate that these models fail to
address questions involving infrequent concepts and provide recommendations for
future directions of research.
- Abstract(参考訳): 視覚的質問回答モデル(VQA)は、関係する質問や概念の多様でバランスの取れていない多様さから、データセットバイアスに頼る傾向で知られており、モデルが学習から推論までを妨げ、代わりに教育された推測を行う傾向がある。
そこで,本論文では,ドメイン内精度を総合的に測定する標準評価基準が誤解を招くと主張している。
質問と概念はバランスが取れないため、微妙なトレーニングセット統計を利用するモデルを好む傾向がある。
あるいは、列車とテストスプリット間の人工的な分配シフトの導入も、完全には満足できない。
第2に、シフトは手作りであるため、トレーニングされたモデルは、この特定の設定のために特別に設計されており、他の構成には一般化しない。
我々は、これらの懸念を克服するために設計されたGQA-OODベンチマークを提案する: 稀で頻繁な問合せ対の精度を測定し、比較し、前者は推論能力の評価に適しており、バイアスを多かれ少なかれ活用するよう訓練されたモデルで実験的に検証する。
7つのVQAモデルと3つのバイアス低減手法を含む大規模研究において、これらのモデルが頻繁な概念に関わる問題に対処できず、研究の今後の方向性を推奨できないことも実験的に実証した。
関連論文リスト
- Crowdsourcing with Difficulty: A Bayesian Rating Model for Heterogeneous Items [0.716879432974126]
応用統計学と機械学習では、訓練に使用される「金の標準」はしばしば偏りがあり、ほとんど常にうるさい。
DawidとSkeneの人気の高いクラウドソーシングモデルは、レーダ(コーダ、アノテータ)の感度と特異性を調整するが、トレーニングのために収集されたレーティングデータの分布特性を捉えない。
本稿では,難易度,差別性,推測可能性に項目レベルの効果を加えることで,コンセンサスカテゴリを推測できる汎用計測エラーモデルを提案する。
論文 参考訳(メタデータ) (2024-05-29T20:59:28Z) - Realistic Conversational Question Answering with Answer Selection based
on Calibrated Confidence and Uncertainty Measurement [54.55643652781891]
対話型質問回答モデル(ConvQA)は,会話中に複数回発生した質問文と過去の質問文のペアを用いて質問に回答することを目的としている。
本稿では,会話履歴における不正確な回答を,ConvQAモデルから推定された信頼度と不確実性に基づいてフィルタリングすることを提案する。
我々は2つの標準ConvQAデータセット上で、回答選択に基づくリアルな会話質問回答モデルの有効性を検証する。
論文 参考訳(メタデータ) (2023-02-10T09:42:07Z) - Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning [54.61762276179205]
我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
論文 参考訳(メタデータ) (2022-10-10T11:05:21Z) - Generative Bias for Robust Visual Question Answering [74.42555378660653]
本稿では,GenB と呼ばれる対象モデルから直接バイアスモデルを学習するための生成手法を提案する。
特に、GenBは、敵の目的と知識の蒸留を組み合わせることで、ターゲットモデルのバイアスを学習するために生成ネットワークを使用している。
提案手法がVQA-CP2, VQA-CP1, GQA-OOD, VQA-CEなどの様々なVQAバイアスデータセットに与える影響を広範囲にわたる実験により明らかにした。
論文 参考訳(メタデータ) (2022-08-01T08:58:02Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - Explain, Edit, and Understand: Rethinking User Study Design for
Evaluating Model Explanations [97.91630330328815]
我々はクラウドソーシング研究を行い、真偽のホテルレビューと偽のホテルレビューを区別するために訓練された詐欺検出モデルと対話する。
単語の線形バッグモデルでは、トレーニング中に特徴係数にアクセスした参加者は、非説明制御と比較して、テストフェーズにおいてモデルの信頼性が大幅に低下する可能性があることを観察する。
論文 参考訳(メタデータ) (2021-12-17T18:29:56Z) - BBQ: A Hand-Built Bias Benchmark for Question Answering [25.108222728383236]
NLPモデルは、世界に存在する社会的バイアスを学習することは十分に文書化されているが、これらのバイアスが、質問応答(QA)のような適用されたタスクに対して、実際のモデルアウトプットにどのように現れるかを示す研究はほとんど行われていない。
筆者らによって構築された質問セットからなるデータセットであるBias Benchmark for QA (BBQ)を導入し、米国英語の文脈に関連する9つの異なる社会的次元に沿って、保護されたクラスに属する人々に対するテキストテストされた社会的偏見を強調した。
文脈が曖昧であるとき、モデルはステレオタイプに強く依存していることが分かり、つまり、モデルの出力は、この設定において有害なバイアスを一貫して再現する。
論文 参考訳(メタデータ) (2021-10-15T16:43:46Z) - Exploring Strategies for Generalizable Commonsense Reasoning with
Pre-trained Models [62.28551903638434]
モデルの一般化と精度に及ぼす3つの異なる適応法の影響を計測する。
2つのモデルを用いた実験では、微調整はタスクの内容と構造の両方を学習することで最もうまく機能するが、過度に適合し、新しい答えへの限定的な一般化に苦しむ。
我々は、プレフィックスチューニングのような代替適応手法が同等の精度を持つのを観察するが、解を見落とさずに一般化し、対数分割に対してより堅牢である。
論文 参考訳(メタデータ) (2021-09-07T03:13:06Z) - How Transferable are Reasoning Patterns in VQA? [10.439369423744708]
視覚の不確実性は、視覚と言語の問題における推論の学習が成功するのを妨げる要因であると主張する。
私たちは視覚的なオラクルを訓練し、大規模な研究では、スプリアスデータセットバイアスを利用する傾向がはるかに低いという実験的証拠を提供します。
我々はこれらの知見を,オーラルからSOTAトランスフォーマーベースのVQAモデルへの推論パターンの転送により活用する。
論文 参考訳(メタデータ) (2021-04-08T10:18:45Z) - UnQovering Stereotyping Biases via Underspecified Questions [68.81749777034409]
未特定質問からバイアスを探索・定量化するためのフレームワークUNQOVERを提案する。
モデルスコアの素直な使用は,2種類の推論誤差による誤ったバイアス推定につながる可能性があることを示す。
我々はこの指標を用いて、性別、国籍、民族、宗教の4つの重要なステレオタイプの分析を行う。
論文 参考訳(メタデータ) (2020-10-06T01:49:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。