論文の概要: Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning
- arxiv url: http://arxiv.org/abs/2210.04563v1
- Date: Mon, 10 Oct 2022 11:05:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 14:58:24.222458
- Title: Towards Robust Visual Question Answering: Making the Most of Biased
Samples via Contrastive Learning
- Title(参考訳): ユビキタスな視覚的質問応答に向けて:コントラスト学習によるバイアス付きサンプルの活用
- Authors: Qingyi Si, Yuanxin Liu, Fandong Meng, Zheng Lin, Peng Fu, Yanan Cao,
Weiping Wang and Jie Zhou
- Abstract要約: 我々は,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築する。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
- 参考スコア(独自算出の注目度): 54.61762276179205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Models for Visual Question Answering (VQA) often rely on the spurious
correlations, i.e., the language priors, that appear in the biased samples of
training set, which make them brittle against the out-of-distribution (OOD)
test data. Recent methods have achieved promising progress in overcoming this
problem by reducing the impact of biased samples on model training. However,
these models reveal a trade-off that the improvements on OOD data severely
sacrifice the performance on the in-distribution (ID) data (which is dominated
by the biased samples). Therefore, we propose a novel contrastive learning
approach, MMBS, for building robust VQA models by Making the Most of Biased
Samples. Specifically, we construct positive samples for contrastive learning
by eliminating the information related to spurious correlation from the
original training samples and explore several strategies to use the constructed
positive samples for training. Instead of undermining the importance of biased
samples in model training, our approach precisely exploits the biased samples
for unbiased information that contributes to reasoning. The proposed method is
compatible with various VQA backbones. We validate our contributions by
achieving competitive performance on the OOD dataset VQA-CP v2 while preserving
robust performance on the ID dataset VQA v2.
- Abstract(参考訳): VQA(Visual Question Answering)のモデルは、しばしば、訓練セットの偏りのあるサンプルに現れる言語先行という、突発的な相関、すなわち、アウト・オブ・ディストリビューション(OOD)テストデータに対する脆さに依存する。
近年,偏りのあるサンプルがモデル学習に与える影響を低減し,この問題を克服する有望な進歩を遂げている。
しかし、これらのモデルでは、OODデータの改善により、(偏りのあるサンプルが支配する)IDデータの性能が著しく低下する、というトレードオフが明らかになっている。
そこで本研究では,ビザドサンプルを最大限に活用することで,ロバストなVQAモデルを構築するための新しいコントラスト学習手法 MMBS を提案する。
具体的には、元のトレーニングサンプルからスプリアス相関に関連する情報を排除し、比較学習のための正のサンプルを構築し、構築した正のサンプルをトレーニングに利用するためのいくつかの戦略を探求する。
モデルトレーニングにおけるバイアス付きサンプルの重要性を損なうのではなく、我々のアプローチは、推論に寄与するバイアス付きサンプルを正確に活用する。
提案手法は様々なVQAバックボーンと互換性がある。
我々は,OODデータセットのVQA-CP v2において,IDデータセットのVQA v2上での堅牢なパフォーマンスを維持しながら,競争性能を達成することで,コントリビューションを検証した。
関連論文リスト
- DOTA: Distributional Test-Time Adaptation of Vision-Language Models [52.98590762456236]
トレーニングフリーテスト時動的アダプタ(TDA)は、この問題に対処するための有望なアプローチである。
単体テスト時間適応法(Dota)の簡易かつ効果的な方法を提案する。
Dotaは継続的にテストサンプルの分布を推定し、モデルがデプロイメント環境に継続的に適応できるようにします。
論文 参考訳(メタデータ) (2024-09-28T15:03:28Z) - Think Twice: Measuring the Efficiency of Eliminating Prediction
Shortcuts of Question Answering Models [3.9052860539161918]
そこで本研究では,任意の特徴量に対するモデルのスケール依存度を簡易に測定する手法を提案する。
質問回答(QA: Question Answering)における各種事前学習モデルとデバイアス法について、既知の予測バイアスと新たに発見された予測バイアスの集合に対するロバスト性を評価する。
既存のデバイアス法は、選択された刺激的特徴への依存を軽減することができるが、これらの手法のOOD性能向上は、偏りのある特徴への依存を緩和することによって説明できない。
論文 参考訳(メタデータ) (2023-05-11T14:35:00Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Reassessing Evaluation Practices in Visual Question Answering: A Case
Study on Out-of-Distribution Generalization [27.437077941786768]
大規模マルチモーダルデータ上で事前訓練された視覚・言語モデル(V&L)は,様々なタスクにおいて高い性能を示す。
異なる条件下で事前学習した2つのV&Lモデルを評価する。
これらのモデルは、VQAタスクに必要な高度なスキルを学ぶよりも、ベンチマークを解くことを学ぶ傾向にある。
論文 参考訳(メタデータ) (2022-05-24T16:44:45Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Energy-bounded Learning for Robust Models of Code [16.592638312365164]
プログラミングでは、コード表現の学習には、コード分類、コード検索、コメント生成、バグ予測など、さまざまなアプリケーションがある。
本稿では,ソースコードモデルのトレーニングプロセスにこれらのアウト・オブ・ディストリビューション・サンプルを組み込むため,エネルギー境界学習目標関数を用いて,イン・ディストリビューション・サンプルにより高いスコアを割り当て,アウト・オブ・ディストリビューション・サンプルに低いスコアを割り当てることを提案する。
論文 参考訳(メタデータ) (2021-12-20T06:28:56Z) - Understanding Out-of-distribution: A Perspective of Data Dynamics [5.811774625668462]
本稿では、OODと分布内サンプルの基本的な相違を理解するために、トレーニングモデルにおけるデータダイナミクスをどのように利用できるかを検討する。
その結果,OOD,in-distributionの両ケースにおいて,モデルが不正確に予測するデータサンプルの構文的特性が直接矛盾していることが判明した。
論文 参考訳(メタデータ) (2021-11-29T17:34:38Z) - Understanding and Testing Generalization of Deep Networks on
Out-of-Distribution Data [30.471871571256198]
ディープネットワークモデルは、In-Distributionデータでは優れた性能を発揮するが、Out-Of-Distributionデータでは著しく失敗する可能性がある。
本研究は,実験的なIDテストの問題を分析し,OODテストパラダイムを設計することを目的とする。
論文 参考訳(メタデータ) (2021-11-17T15:29:07Z) - Jo-SRC: A Contrastive Approach for Combating Noisy Labels [58.867237220886885]
Jo-SRC (Joint Sample Selection and Model Regularization based on Consistency) というノイズロバスト手法を提案する。
具体的には、対照的な学習方法でネットワークをトレーニングする。
各サンプルの2つの異なるビューからの予測は、クリーンまたは分布不足の「可能性」を推定するために使用されます。
論文 参考訳(メタデータ) (2021-03-24T07:26:07Z) - One for More: Selecting Generalizable Samples for Generalizable ReID
Model [92.40951770273972]
本稿では,選択したサンプルを損失関数として一般化する1対3の学習目標を提案する。
提案した1対3のサンプルは,ReIDトレーニングフレームワークにシームレスに統合できる。
論文 参考訳(メタデータ) (2020-12-10T06:37:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。