Fugu-MT 論文翻訳(概要): Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions

論文の概要: Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions

arxiv url: http://arxiv.org/abs/2205.00415v3
Date: Wed, 20 Mar 2024 03:23:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-21 23:26:53.512309
Title: Don't Blame the Annotator: Bias Already Starts in the Annotation Instructions
Title（参考訳）: アノテーションを壊さない:Biasはすでにアノテーションのインストラクションで始まっている
Authors: Mihir Parmar, Swaroop Mishra, Mor Geva, Chitta Baral,
Abstract要約: 我々は14のNLUベンチマークにおいて、命令バイアスと呼ばれるバイアスの形式を研究する。提案手法は, クラウドワーカーが収集したデータに伝達する具体的なパターンを示すことが多いことを示す。
参考スコア（独自算出の注目度）: 71.5668415104079
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In recent years, progress in NLU has been driven by benchmarks. These benchmarks are typically collected by crowdsourcing, where annotators write examples based on annotation instructions crafted by dataset creators. In this work, we hypothesize that annotators pick up on patterns in the crowdsourcing instructions, which bias them to write many similar examples that are then over-represented in the collected data. We study this form of bias, termed instruction bias, in 14 recent NLU benchmarks, showing that instruction examples often exhibit concrete patterns, which are propagated by crowdworkers to the collected data. This extends previous work (Geva et al., 2019) and raises a new concern of whether we are modeling the dataset creator's instructions, rather than the task. Through a series of experiments, we show that, indeed, instruction bias can lead to overestimation of model performance, and that models struggle to generalize beyond biases originating in the crowdsourcing instructions. We further analyze the influence of instruction bias in terms of pattern frequency and model size, and derive concrete recommendations for creating future NLU benchmarks.
Abstract（参考訳）: 近年、NLUの進歩はベンチマークによって推進されている。これらのベンチマークは通常、クラウドソーシングによって収集される。本研究では,アノテータがクラウドソーシング命令のパターンを拾い上げると,収集したデータに過剰に表現された類似した例をたくさん書くことに偏りがある,という仮説を立てる。提案手法は,14のNLUベンチマークにおいて,この形式のバイアス,いわゆる命令バイアスについて検討し,実例では,収集したデータに対して,クラウドワーカーによって伝播される具体的なパターンがしばしば現れることを示した。これは以前の作業(Geva et al , 2019)を拡張し、タスクではなくデータセット作成者の指示をモデル化しているかどうかという新たな懸念を提起する。一連の実験を通して、実際に、命令バイアスがモデル性能の過大評価につながることを示し、モデルがクラウドソーシングの指示に起因したバイアスを超えた一般化に苦慮していることを示す。さらに、パターン周波数とモデルサイズにおける命令バイアスの影響を分析し、将来のNLUベンチマークを作成するための具体的な勧告を導出する。

関連論文リスト

Tuning-Free Personalized Alignment via Trial-Error-Explain In-Context Learning [74.56097953187994]
本稿では,テキスト生成タスクのための言語モデルをパーソナライズするチューニング不要な手法であるTrial-Error-Explain In-Context Learning(TICL)を提案する。 TICLは、試行錯誤説明プロセスを通じて、文脈内学習プロンプトを反復的に拡張し、モデル生成陰性サンプルと説明を追加する。 TICLは従来の最先端技術に対して最大91.5%を達成し、パーソナライズされたアライメントタスクのための競争的なチューニング不要のベースラインを上回っている。
論文参考訳（メタデータ） (2025-02-13T05:20:21Z)
Context-Parametric Inversion: Why Instruction Finetuning May Not Actually Improve Context Reliance [68.56701216210617]
In-principleでは、モデルが命令の微調整後にユーザコンテキストに適応することを期待する。インストラクションチューニング中、知識の衝突によるコンテキスト依存は、当初期待通りに増大するが、徐々に減少する。
論文参考訳（メタデータ） (2024-10-14T17:57:09Z)
Benchmarking Benchmark Leakage in Large Language Models [24.015208839742343]
本稿では,モデル予測精度をベンチマークで評価する2つの単純かつスケーラブルな指標であるPerplexityとN-gramの精度を利用した検出パイプラインを提案する。テストセットの誤用さえも、トレーニングのかなりの例を明らかにし、潜在的に不公平な比較を行う。ベンチマーク利用の明確なドキュメンテーションを促進するために,ベンチマーク透明性カードを提案する。
論文参考訳（メタデータ） (2024-04-29T16:05:36Z)
IBADR: an Iterative Bias-Aware Dataset Refinement Framework for Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文参考訳（メタデータ） (2023-11-01T04:50:38Z)
Fairness-guided Few-shot Prompting for Large Language Models [93.05624064699965]
インコンテキスト学習は、トレーニング例、例えば順、プロンプトフォーマットのバリエーションによって、高い不安定性に悩まされる可能性がある。ラベルや属性に対する固定的なプロンプトの予測バイアスを評価するための指標を導入する。そこで本研究では,テキスト内学習の性能向上のための最寄りのプロンプトを特定するための,欲求探索に基づく新しい探索手法を提案する。
論文参考訳（メタデータ） (2023-03-23T12:28:25Z)
Augmenting NLP data to counter Annotation Artifacts for NLI Tasks [0.0]
大規模な事前トレーニングされたNLPモデルは、ベンチマークデータセット上で高いパフォーマンスを達成するが、基礎となるタスクを実際に"解決"することはない。モデルの性能の限界を理解するために、まずコントラストと逆例を用いてこの現象を探求する。次に、このバイアスを修正し、その有効性を測定するためのデータ拡張手法を提案する。
論文参考訳（メタデータ） (2023-02-09T15:34:53Z)
Counterfactually-Augmented SNLI Training Data Does Not Yield Better Generalization Than Unaugmented Data [27.738670027154555]
自然言語理解データのカウンターファクト拡張は、トレーニングデータの収集に有効な方法ではない。本研究は、英語の自然言語推論データを用いて、モデル一般化とロバスト性をテストする。
論文参考訳（メタデータ） (2020-10-09T18:44:02Z)
Towards Debiasing NLU Models from Unknown Biases [70.31427277842239]
NLUモデルは、しばしばバイアスを利用して、意図したタスクを適切に学習することなく、データセット固有の高いパフォーマンスを達成する。本稿では、モデルがバイアスを事前に知ることなく、主にバイアスを利用するのを防ぐ自己バイアスフレームワークを提案する。
論文参考訳（メタデータ） (2020-09-25T15:49:39Z)
Mind the Trade-off: Debiasing NLU Models without Degrading the In-distribution Performance [70.31427277842239]
信頼性正則化という新しいデバイアス化手法を導入する。モデルがバイアスを悪用するのを防ぐと同時に、トレーニングのすべての例から学ぶのに十分なインセンティブを得られるようにします。提案手法を3つのNLUタスクで評価し,前者とは対照的に,アウト・オブ・ディストリビューション・データセットの性能が向上することを示す。
論文参考訳（メタデータ） (2020-05-01T11:22:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。