論文の概要: Mitigating the Position Bias of Transformer Models in Passage Re-Ranking
- arxiv url: http://arxiv.org/abs/2101.06980v1
- Date: Mon, 18 Jan 2021 10:38:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-27 05:55:43.376596
- Title: Mitigating the Position Bias of Transformer Models in Passage Re-Ranking
- Title(参考訳): 変圧器モデルの通路再配置における位置偏りの軽減
- Authors: Sebastian Hofst\"atter, Aldo Lipani, Sophia Althammer, Markus
Zlabinger, Allan Hanbury
- Abstract要約: 教師付き機械学習モデルとその評価は、基礎となるデータセットの品質に大きく依存する。
文中の正しい回答の位置の偏りを,文節の再ランキングに用いる2つの一般的な質問応答データセットで観察する。
位置バイアスを緩和することにより、Transformerベースのリグレードモデルはバイアス付きおよび偏りのあるデータセットに対して等しく有効であることを示す。
- 参考スコア(独自算出の注目度): 12.526786110360622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Supervised machine learning models and their evaluation strongly depends on
the quality of the underlying dataset. When we search for a relevant piece of
information it may appear anywhere in a given passage. However, we observe a
bias in the position of the correct answer in the text in two popular Question
Answering datasets used for passage re-ranking. The excessive favoring of
earlier positions inside passages is an unwanted artefact. This leads to three
common Transformer-based re-ranking models to ignore relevant parts in unseen
passages. More concerningly, as the evaluation set is taken from the same
biased distribution, the models overfitting to that bias overestimate their
true effectiveness. In this work we analyze position bias on datasets, the
contextualized representations, and their effect on retrieval results. We
propose a debiasing method for retrieval datasets. Our results show that a
model trained on a position-biased dataset exhibits a significant decrease in
re-ranking effectiveness when evaluated on a debiased dataset. We demonstrate
that by mitigating the position bias, Transformer-based re-ranking models are
equally effective on a biased and debiased dataset, as well as more effective
in a transfer-learning setting between two differently biased datasets.
- Abstract(参考訳): 教師付き機械学習モデルとその評価は、基礎となるデータセットの品質に大きく依存する。
関連した情報を検索すると、指定された通路のどこにでも現れる可能性がある。
しかし,文中の正しい回答の位置の偏りを,文節の再ランキングに用いる2つの一般的な質問応答データセットで観察する。
通路内の初期の位置を過度に好むことは望ましくない人工物である。
これにより、トランスフォーマーベースの3つの一般的なリグレードモデルが、目に見えない通路で関連する部分を無視する。
さらに、評価セットが同じバイアス分布から取られるので、そのバイアスに過度に適合するモデルは、真の効果を過大評価する。
本研究では,データセットの位置バイアス,文脈表現,それらの検索結果への影響を分析する。
本稿では,データセットのデバイアス化手法を提案する。
以上の結果から,位置バイアスデータセットでトレーニングしたモデルでは,デバイアスデータセットで評価した場合,再評価の有効性が著しく低下することが示唆された。
位置バイアスを緩和することにより、トランスフォーマーベースのリグレードモデルはバイアス付きおよびバイアス付きデータセットに対して等しく有効であり、2つの異なるバイアス付きデータセット間の転送学習設定においてより効果的であることを示す。
関連論文リスト
- Model Debiasing by Learnable Data Augmentation [19.625915578646758]
本稿では,トレーニングを正規化可能なデータ拡張戦略を備えた,新しい2段階学習パイプラインを提案する。
合成および現実的なバイアス付きデータセットの実験は、最先端の分類精度を示し、競合する手法より優れている。
論文 参考訳(メタデータ) (2024-08-09T09:19:59Z) - Improving Bias Mitigation through Bias Experts in Natural Language
Understanding [10.363406065066538]
補助モデルと主モデルの間に二項分類器を導入するデバイアス化フレームワークを提案する。
提案手法は補助モデルのバイアス識別能力を向上させる。
論文 参考訳(メタデータ) (2023-12-06T16:15:00Z) - Dataset Bias Mitigation in Multiple-Choice Visual Question Answering and
Beyond [93.96982273042296]
視覚言語(VL)理解タスクは、複数の質問を通じて複雑な視覚シーンのモデルによる理解を評価する。
我々は、モデルが様々なVLタスクを適切に理解することなく正しく解決するために、ショートカットとして活用できる2つのデータセットバイアスを特定した。
本稿では,ADS(Adversarial Data Synthesis)を用いて,合成学習データと偏り評価データを生成する。
次に、サンプル内微分に着目して、合成したトレーニングデータ、特に対物データを利用するモデルを支援するために、サンプル内対物訓練(ICT)を導入する。
論文 参考訳(メタデータ) (2023-10-23T08:09:42Z) - Echoes: Unsupervised Debiasing via Pseudo-bias Labeling in an Echo
Chamber [17.034228910493056]
本稿では,既存のバイアスモデルがトレーニングデータにおけるバイアス強調サンプルに過度に適合していることを明らかにする実験的検討を行った。
本研究では、バイアスモデルとターゲットモデルを異なる戦略で訓練するEchoesという、単純で効果的な手法を提案する。
提案手法は,既存の合成データセットと実世界のデータセットのベースラインと比較して,優れたデバイアス化結果が得られる。
論文 参考訳(メタデータ) (2023-05-06T13:13:18Z) - Overwriting Pretrained Bias with Finetuning Data [36.050345384273655]
目的タスクと機密属性の相互関係を概念化した場合のバイアスや,データセット内の特定のグループを過小評価する場合のバイアスについて検討する。
事前訓練されたモデルの上に微調整されたモデルは、実際にそれらのバイアスを継承できるが、(2)このバイアスは、比較的小さな介入によって修正できる。
その結果、下流タスクのバイアスを軽減するためには、微調整データセットの慎重なキュレーションが重要であることが示唆され、事前訓練されたモデルのバイアスを補うこともできる。
論文 参考訳(メタデータ) (2023-03-10T19:10:58Z) - Debiasing Stance Detection Models with Counterfactual Reasoning and
Adversarial Bias Learning [15.68462203989933]
スタンス検出モデルは、ショートカットとしてテキスト部分のデータセットバイアスに依存する傾向がある。
より正確にバイアスをモデル化するための逆バイアス学習モジュールを提案する。
論文 参考訳(メタデータ) (2022-12-20T16:20:56Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Mitigating Representation Bias in Action Recognition: Algorithms and
Benchmarks [76.35271072704384]
ディープラーニングモデルは、稀なシーンやオブジェクトを持つビデオに適用すると、パフォーマンスが悪くなります。
この問題にはアルゴリズムとデータセットの2つの異なる角度から対処する。
偏りのある表現は、他のデータセットやタスクに転送するとより一般化できることを示す。
論文 参考訳(メタデータ) (2022-09-20T00:30:35Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Improving Robustness by Augmenting Training Sentences with
Predicate-Argument Structures [62.562760228942054]
データセットバイアスに対するロバスト性を改善する既存のアプローチは、主にトレーニング目標の変更に焦点を当てている。
本稿では,学習データ中の入力文に対応する述語句構造を付加することを提案する。
特定のバイアスを対象とせずに、文の増大は、複数のバイアスに対してトランスフォーマーモデルの堅牢性を向上することを示す。
論文 参考訳(メタデータ) (2020-10-23T16:22:05Z) - Towards Robustifying NLI Models Against Lexical Dataset Biases [94.79704960296108]
本稿では、語彙的データセットバイアスに対するモデル強化のための、データレベルとモデルレベルのデバイアス法の両方について検討する。
まず、データ拡張と拡張によってデータセットをデバイアスするが、この方法でモデルバイアスを完全に除去することはできないことを示す。
第2のアプローチでは、バーオブワードのサブモデルを使用して、バイアスを悪用する可能性のある機能をキャプチャし、元のモデルがこれらのバイアス付き機能を学ぶのを防ぐ。
論文 参考訳(メタデータ) (2020-05-10T17:56:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。