論文の概要: Learning from others' mistakes: Avoiding dataset biases without modeling
them
- arxiv url: http://arxiv.org/abs/2012.01300v1
- Date: Wed, 2 Dec 2020 16:10:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-30 07:26:21.468403
- Title: Learning from others' mistakes: Avoiding dataset biases without modeling
them
- Title(参考訳): 他人の失敗から学ぶ - モデリングせずにデータセットのバイアスを避ける
- Authors: Victor Sanh, Thomas Wolf, Yonatan Belinkov, Alexander M. Rush
- Abstract要約: 最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
- 参考スコア(独自算出の注目度): 111.17078939377313
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art natural language processing (NLP) models often learn to
model dataset biases and surface form correlations instead of features that
target the intended underlying task. Previous work has demonstrated effective
methods to circumvent these issues when knowledge of the bias is available. We
consider cases where the bias issues may not be explicitly identified, and show
a method for training models that learn to ignore these problematic
correlations. Our approach relies on the observation that models with limited
capacity primarily learn to exploit biases in the dataset. We can leverage the
errors of such limited capacity models to train a more robust model in a
product of experts, thus bypassing the need to hand-craft a biased model. We
show the effectiveness of this method to retain improvements in
out-of-distribution settings even if no particular bias is targeted by the
biased model.
- Abstract(参考訳): 最先端自然言語処理(nlp)モデルは、対象とするタスクを対象とする機能ではなく、データセットバイアスや表面フォーム相関をモデル化することを学びます。
前回の研究では、バイアスの知識が利用できる場合に、これらの問題を回避できる効果的な方法が示されている。
バイアス問題を明示的に特定できないケースを考察し、これらの問題のある相関を無視することを学ぶモデルを訓練する方法を示す。
我々のアプローチは、限られたキャパシティを持つモデルが主にデータセットのバイアスを悪用することを学ぶという観察に依存している。
このような限られたキャパシティモデルのエラーを利用して、専門家の製品でより堅牢なモデルをトレーニングし、バイアスのあるモデルを手作りする必要性を回避できます。
本手法は,偏りのあるモデルに特定のバイアスが当てはまらない場合でも,分布外設定の改善を維持するための効果を示す。
関連論文リスト
- Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [23.38225108217336]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
バイアスモデルとターゲットモデルを異なる戦略でトレーニングするtextitEchoes という,単純かつ効果的な手法を提案する。
実験により,本手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られることが示された。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Overcoming Bias in Pretrained Models by Manipulating the Finetuning
Dataset [25.41472944304358]
目的タスクと機密属性の相互関係を概念化した場合のバイアスや,データセット内の特定のグループを過小評価する場合のバイアスについて検討する。
事前訓練されたモデルの上に微調整されたモデルは、実際にそれらのバイアスを継承できるが、(2)このバイアスは、比較的小さな介入によって修正できる。
その結果、下流タスクのバイアスを軽減するためには、微調整データセットの慎重なキュレーションが重要であることが示唆され、事前訓練されたモデルのバイアスを補うこともできる。
論文 参考訳(メタデータ) (2023-03-10T19:10:58Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Investigating Ensemble Methods for Model Robustness Improvement of Text
Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。
適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文 参考訳(メタデータ) (2022-10-28T17:52:10Z) - Synthetic Model Combination: An Instance-wise Approach to Unsupervised
Ensemble Learning [92.89846887298852]
ラベル付きデータのトレーニングセットから学ぶ機会のない、新しいテストデータに対する予測を検討する。
専門家モデルのセットと予測へのアクセスと、トレーニングに使用するデータセットに関する制限された情報を提供すること。
論文 参考訳(メタデータ) (2022-10-11T10:20:31Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Don't Discard All the Biased Instances: Investigating a Core Assumption
in Dataset Bias Mitigation Techniques [19.252319300590656]
データセットバイアスを緩和する既存のテクニックは、バイアス付きモデルを利用してバイアス付きインスタンスを識別することが多い。
これらの偏りのあるインスタンスの役割は、メインモデルのトレーニング中に減少し、アウト・オブ・ディストリビューションデータに対するロバスト性を高める。
本稿では,この仮定が一般には成り立たないことを示す。
論文 参考訳(メタデータ) (2021-09-01T10:25:46Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z) - Debiasing Skin Lesion Datasets and Models? Not So Fast [17.668005682385175]
データリスク学習のバイアスから学んだモデルは、同じデータから。
モデルが現実世界の状況では見つからない急激な相関関係を学習すると、医療上の決定などの重要なタスクへの展開は破滅的なものになる。
将来有望な研究を示唆する興味深い結果にもかかわらず、現在の脱バイアス法は、スキン・レジオンモデルのバイアス問題を解決する準備ができていないことが判明した。
論文 参考訳(メタデータ) (2020-04-23T21:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。