論文の概要: Don't Blame the Annotator: Bias Already Starts in the Annotation
Instructions
- arxiv url: http://arxiv.org/abs/2205.00415v1
- Date: Sun, 1 May 2022 07:51:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-04 05:43:31.661427
- Title: Don't Blame the Annotator: Bias Already Starts in the Annotation
Instructions
- Title(参考訳): アノテーションを壊さない:Biasはすでにアノテーションのインストラクションで始まっている
- Authors: Mihir Parmar, Swaroop Mishra, Mor Geva, Chitta Baral
- Abstract要約: 我々は14のNLUベンチマークにおいて、命令バイアスと呼ばれるバイアスの形式を研究する。
また, 実例では, 群集労働者によって伝播する具体的なパターンが示されることが多かった。
我々は将来のNLUベンチマークを作成するための具体的な勧告を提案する。
- 参考スコア(独自算出の注目度): 23.515283983112415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, progress in NLU has been driven by benchmarks. These
benchmarks are typically collected by crowdsourcing, where annotators write
examples based on annotation instructions crafted by dataset creators. In this
work, we hypothesize that annotators pick up on patterns in the crowdsourcing
instructions, which bias them to write similar examples that are then
over-represented in the collected data. We study this form of bias, termed
instruction bias, in 14 recent NLU benchmarks, showing that instruction
examples often exhibit concrete patterns, which are propagated by crowdworkers
to the collected data. This extends previous work (Geva et al., 2019) and
raises a new concern of whether we are modeling the dataset creator's
instructions, rather than the task. Through a series of experiments, we show
that, indeed, instruction bias can lead to overestimation of model performance,
and that models struggle to generalize beyond biases originating in the
crowdsourcing instructions. We further analyze the influence of instruction
bias in terms of pattern frequency and model size, and derive concrete
recommendations for creating future NLU benchmarks.
- Abstract(参考訳): 近年、NLUの進歩はベンチマークによって推進されている。
これらのベンチマークは一般的にクラウドソーシングによって収集され、アノテーション作成者はデータセット作成者が作成したアノテーション命令に基づいてサンプルを書く。
本研究では,アノテータがクラウドソーシング命令のパターンをピックアップして,収集したデータに過剰に表現される類似の例を書くようにバイアスを与える,という仮説を定式化する。
我々は,近年のnluベンチマーク14例において,このようなバイアス(命令バイアスと呼ばれる)について検討し,指示例は,群集作業者が収集したデータに伝達する具体的パターンを示すことが多いことを示した。
これは以前の作業(Geva et al., 2019)を拡張し、タスクではなくデータセット作成者の指示をモデル化しているかどうかという新たな懸念を提起する。
一連の実験を通じて,命令バイアスがモデル性能の過大評価につながること,およびモデルがクラウドソーシング命令に由来するバイアスを超える一般化に苦慮していることが示されている。
さらに,パターンの頻度とモデルサイズによる命令バイアスの影響を解析し,今後のnluベンチマーク作成のための具体的な推奨事項を導出する。
関連論文リスト
- Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。
インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文 参考訳(メタデータ) (2024-10-14T17:57:09Z) - Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。
テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。
ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文 参考訳(メタデータ) (2024-04-29T16:05:36Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。
ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。
そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T12:28:25Z) - Augmenting NLP data to counter Annotation Artifacts for NLI Tasks [0.0]
大規模な事前トレーニングされたNLPモデルは、ベンチマークデータセット上で高いパフォーマンスを達成するが、基礎となるタスクを実際に"解決"することはない。
モデルの性能の限界を理解するために、まずコントラストと逆例を用いてこの現象を探求する。
次に、このバイアスを修正し、その有効性を測定するためのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2023-02-09T15:34:53Z) - Counterfactually-Augmented SNLI Training Data Does Not Yield Better
Generalization Than Unaugmented Data [27.738670027154555]
自然言語理解データのカウンターファクト拡張は、トレーニングデータの収集に有効な方法ではない。
本研究は、英語の自然言語推論データを用いて、モデル一般化とロバスト性をテストする。
論文 参考訳(メタデータ) (2020-10-09T18:44:02Z) - Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。
本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-25T15:49:39Z) - Mind the Trade-off: Debiasing NLU Models without Degrading the
In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。
モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。
提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文 参考訳(メタデータ) (2020-05-01T11:22:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。