論文の概要: Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles
- arxiv url: http://arxiv.org/abs/2011.03856v1
- Date: Sat, 7 Nov 2020 22:20:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 22:07:55.324494
- Title: Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles
- Title(参考訳): 混合容量アンサンブルを用いたデータセットバイアスのモデル化と識別の学習
- Authors: Christopher Clark, Mark Yatskar, and Luke Zettlemoyer
- Abstract要約: 本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
- 参考スコア(独自算出の注目度): 66.15398165275926
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many datasets have been shown to contain incidental correlations created by
idiosyncrasies in the data collection process. For example, sentence entailment
datasets can have spurious word-class correlations if nearly all contradiction
sentences contain the word "not", and image recognition datasets can have
tell-tale object-background correlations if dogs are always indoors. In this
paper, we propose a method that can automatically detect and ignore these kinds
of dataset-specific patterns, which we call dataset biases. Our method trains a
lower capacity model in an ensemble with a higher capacity model. During
training, the lower capacity model learns to capture relatively shallow
correlations, which we hypothesize are likely to reflect dataset bias. This
frees the higher capacity model to focus on patterns that should generalize
better. We ensure the models learn non-overlapping approaches by introducing a
novel method to make them conditionally independent. Importantly, our approach
does not require the bias to be known in advance. We evaluate performance on
synthetic datasets, and four datasets built to penalize models that exploit
known biases on textual entailment, visual question answering, and image
recognition tasks. We show improvement in all settings, including a 10 point
gain on the visual question answering dataset.
- Abstract(参考訳): 多くのデータセットは、データ収集プロセスにおいて慣用性によって生成された偶発的相関を含むことが示されている。
例えば、文の補足データセットは、ほぼ全ての矛盾文が"not"という単語を含む場合、散発的な単語-クラス相関を持つことができ、画像認識データセットは、犬が常に屋内にいる場合、対物-背景相関を持つことができる。
本稿では,このようなデータセット固有のパターンを自動的に検出し,無視する手法を提案する。
提案手法は,高容量モデルを用いたアンサンブルで低容量モデルを訓練する。
トレーニング中、低いキャパシティモデルは比較的浅い相関を捉えることを学習し、それがデータセットバイアスを反映する可能性が高いと仮定する。
これにより、より高いキャパシティモデルが、より一般化すべきパターンに集中できるようになる。
モデルに条件付き独立性を持たせる新しい手法を導入することで、重複しないアプローチを確実に学習する。
重要なことは、私たちのアプローチは事前にバイアスを知る必要はないということです。
合成データセットの性能評価と,テキストエンタテインメントや視覚的質問応答,画像認識タスクの既知バイアスを利用したモデル解析のための4つのデータセットを構築した。
視覚的質問応答データセットの10ポイント向上を含む,すべての設定の改善を示す。
関連論文リスト
- ConceptDrift: Uncovering Biases through the Lens of Foundation Models [5.025665239455297]
ceptDriftは、人間の事前知識なしでデータセット内のバイアスを自動的に識別できる。
本稿では,従来の作業のギャップを埋める2つのバイアス識別評価プロトコルを提案し,本手法がSoTA法よりも大幅に改善されていることを示す。
我々の手法は単一のモダリティに縛られず、画像(Waterbirds, CelebA, ImageNet)とテキストデータセット(CivilComments)の両方で実証的に検証する。
論文 参考訳(メタデータ) (2024-10-24T17:59:16Z) - Common-Sense Bias Discovery and Mitigation for Classification Tasks [16.8259488742528]
画像記述に基づいてデータセットの特徴クラスタを抽出するフレームワークを提案する。
解析された特徴と相関は人間に解釈可能であるので、我々はCommon-Sense Bias Discovery (CSBD) という手法を名づける。
実験の結果,2つのベンチマーク画像データセットに対して,複数の分類タスクに新たなバイアスが生じることがわかった。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Certifying Robustness to Programmable Data Bias in Decision Trees [12.060443368097102]
学習者が生成したモデルは、潜在的なデータセットバイアスに対してポイントワイズで損なわれていることを証明します。
このアプローチでは,さまざまな次元にまたがるバイアスモデルを指定することが可能です。
フェアネス文献でよく用いられるデータセットに対する我々のアプローチを評価する。
論文 参考訳(メタデータ) (2021-10-08T20:15:17Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z) - Evaluating Models' Local Decision Boundaries via Contrast Sets [119.38387782979474]
テストデータの体系的なギャップを埋めるのに役立つNLPのための新しいアノテーションパラダイムを提案する。
10種類のNLPデータセットに対してコントラストセットを作成することで,コントラストセットの有効性を示す。
我々のコントラストセットは明示的には逆ではないが、モデルの性能は元のテストセットよりも大幅に低い。
論文 参考訳(メタデータ) (2020-04-06T14:47:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。