論文の概要: Towards Robustifying NLI Models Against Lexical Dataset Biases
- arxiv url: http://arxiv.org/abs/2005.04732v2
- Date: Wed, 13 May 2020 23:44:17 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 01:30:07.182312
- Title: Towards Robustifying NLI Models Against Lexical Dataset Biases
- Title(参考訳): 語彙データセットバイアスに対するNLIモデルのロバスト化に向けて
- Authors: Xiang Zhou, Mohit Bansal
- Abstract要約: 本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
- 参考スコア(独自算出の注目度): 94.79704960296108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While deep learning models are making fast progress on the task of Natural
Language Inference, recent studies have also shown that these models achieve
high accuracy by exploiting several dataset biases, and without deep
understanding of the language semantics. Using contradiction-word bias and
word-overlapping bias as our two bias examples, this paper explores both
data-level and model-level debiasing methods to robustify models against
lexical dataset biases. First, we debias the dataset through data augmentation
and enhancement, but show that the model bias cannot be fully removed via this
method. Next, we also compare two ways of directly debiasing the model without
knowing what the dataset biases are in advance. The first approach aims to
remove the label bias at the embedding level. The second approach employs a
bag-of-words sub-model to capture the features that are likely to exploit the
bias and prevents the original model from learning these biased features by
forcing orthogonality between these two sub-models. We performed evaluations on
new balanced datasets extracted from the original MNLI dataset as well as the
NLI stress tests, and show that the orthogonality approach is better at
debiasing the model while maintaining competitive overall accuracy. Our code
and data are available at: https://github.com/owenzx/LexicalDebias-ACL2020
- Abstract(参考訳): ディープラーニングモデルは自然言語推論のタスクにおいて急速に進歩しているが、最近の研究では、これらのモデルがいくつかのデータセットバイアスを利用して、言語意味論の深い理解なしに高い精度を達成することも示されている。
本稿では、矛盾語バイアスと単語重複バイアスを2つのバイアスの例として用い、語彙的データセットバイアスに対するモデル強化のためのデータレベルとモデルレベルのデバイアス法について検討する。
まず,データ拡張と拡張によってデータセットをデバイアスするが,この手法ではモデルバイアスを完全に取り除くことはできないことを示す。
次に、データセットのバイアスが何であるかを事前に知ることなく、モデルを直接デバイアスする2つの方法を比較する。
最初のアプローチは、埋め込みレベルでラベルバイアスを取り除くことである。
第2のアプローチでは,バイアスを悪用する可能性のある機能をキャプチャするために,バガ・オブ・ワード(bag-of-words)のサブモデルを採用している。
mnliデータセットから抽出した新しいバランスデータセットとnliストレステストについて評価を行い, 総合的精度を維持しつつモデルのデバイアスに直交性アプローチが優れていることを示した。
私たちのコードとデータは、https://github.com/owenzx/lexicaldebias-acl2020で利用可能です。
関連論文リスト
- Fighting Bias with Bias: Promoting Model Robustness by Amplifying
Dataset Biases [5.997909991352044]
最近の研究は、トレーニングセットからバイアスのあるサンプルをフィルタリングすることで、頑健でバイアスのないモデルを開発することを試みた。
このようなフィルタリングは、バイアスを克服するモデルの真の能力を曖昧にする可能性がある、と私たちは主張する。
バイアス増幅トレーニングセットとバイアス防止テストセットで定義された評価フレームワークを導入する。
論文 参考訳(メタデータ) (2023-05-30T10:10:42Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Pseudo Bias-Balanced Learning for Debiased Chest X-ray Classification [57.53567756716656]
本研究では, バイアスラベルを正確に把握せず, 脱バイアス胸部X線診断モデルの開発について検討した。
本稿では,まずサンプルごとのバイアスラベルをキャプチャし,予測する新しいアルゴリズム,擬似バイアスバランス学習を提案する。
提案手法は他の最先端手法よりも一貫した改善を実現した。
論文 参考訳(メタデータ) (2022-03-18T11:02:18Z) - Debiasing Methods in Natural Language Understanding Make Bias More
Accessible [28.877572447481683]
自然言語理解(NLU)における近年のデバイアス化手法は,モデルを押して非バイアス予測を行うことにより,そのようなデータセットの性能を向上させる。
本稿では,言語モデルにおけるバイアスのポストホック解釈を可能にする,一般的な探索型フレームワークを提案する。
反故意に、言語モデルが偏見のない体制にプッシュされるほど、バイアスが実際に内部表現にエンコードされることが示される。
論文 参考訳(メタデータ) (2021-09-09T08:28:22Z) - A Generative Approach for Mitigating Structural Biases in Natural
Language Inference [24.44419010439227]
本研究では、NLIタスクを生成タスクとして再構成し、モデルが入力とラベルのバイアス付きサブセットに条件付けされるようにする。
このアプローチは大量のバイアスに対して非常に堅牢であることを示す。
生成モデルは訓練が困難であり、識別ベースラインよりも一般的にはパフォーマンスが悪くなっている。
論文 参考訳(メタデータ) (2021-08-31T17:59:45Z) - Learning from others' mistakes: Avoiding dataset biases without modeling
them [111.17078939377313]
最先端自然言語処理(NLP)モデルは、意図したタスクをターゲットとする機能ではなく、データセットのバイアスや表面形状の相関をモデル化することを学ぶことが多い。
これまでの研究は、バイアスに関する知識が利用できる場合に、これらの問題を回避するための効果的な方法を示してきた。
本稿では,これらの問題点を無視する学習モデルについて述べる。
論文 参考訳(メタデータ) (2020-12-02T16:10:54Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。