論文の概要: Competency Problems: On Finding and Removing Artifacts in Language Data
- arxiv url: http://arxiv.org/abs/2104.08646v1
- Date: Sat, 17 Apr 2021 21:34:10 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 06:04:24.626679
- Title: Competency Problems: On Finding and Removing Artifacts in Language Data
- Title(参考訳): 能力問題:言語データのアーティファクトの検索と削除について
- Authors: Matt Gardner, William Merrill, Jesse Dodge, Matthew E. Peters, Alexis
Ross, Sameer Singh, Noah Smith
- Abstract要約: 複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
- 参考スコア(独自算出の注目度): 50.09608320112584
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Much recent work in NLP has documented dataset artifacts, bias, and spurious
correlations between input features and output labels. However, how to tell
which features have "spurious" instead of legitimate correlations is typically
left unspecified. In this work we argue that for complex language understanding
tasks, all simple feature correlations are spurious, and we formalize this
notion into a class of problems which we call competency problems. For example,
the word "amazing" on its own should not give information about a sentiment
label independent of the context in which it appears, which could include
negation, metaphor, sarcasm, etc. We theoretically analyze the difficulty of
creating data for competency problems when human bias is taken into account,
showing that realistic datasets will increasingly deviate from competency
problems as dataset size increases. This analysis gives us a simple statistical
test for dataset artifacts, which we use to show more subtle biases than were
described in prior work, including demonstrating that models are
inappropriately affected by these less extreme biases. Our theoretical
treatment of this problem also allows us to analyze proposed solutions, such as
making local edits to dataset instances, and to give recommendations for future
data collection and model design efforts that target competency problems.
- Abstract(参考訳): NLPにおける最近の研究は、入力特徴と出力ラベルの間のデータセットアーティファクト、バイアス、および急激な相関を文書化してきた。
しかし、どの機能が正当な相関の代わりに「純然たる」のかを判断する方法は、通常、特定されていないままである。
本研究では,複雑な言語理解タスクにおいて,すべての単純な特徴相関が突発的であり,この概念を「能力問題」と呼ぶ問題のクラスに形式化する。
例えば、それ自体で「驚き」という言葉は、否定、比喩、皮肉などを含む文脈に依存しない感情ラベルに関する情報を与えてはならない。
人間のバイアスを考慮した場合の能力問題に対するデータ作成の難しさを理論的に分析し,データセットのサイズが大きくなるにつれて,現実的なデータセットが能力問題から徐々に逸脱していくことを示す。
この分析により、データセットのアーティファクトの単純な統計的テストが得られます。これは、前の研究で説明されていたよりも微妙なバイアスを示すために使われます。
この問題を理論的に扱うことで、データセットインスタンスのローカルな編集や、将来的なデータ収集やコンピテンシー問題を対象としたモデル設計への推奨など、提案されたソリューションの分析が可能になります。
関連論文リスト
- The Empirical Impact of Data Sanitization on Language Models [1.1359551336076306]
本稿では,複数のベンチマーク言語モデリングタスクにおけるデータ・サニタイズの効果を実証的に分析する。
以上の結果から,感情分析やエンテーメントなどのタスクでは,リアクションの影響は極めて低く,典型的には1~5%程度であることが示唆された。
理解的なQ&Aのようなタスクでは、オリジナルのものと比較して、再実行クエリで観測されるパフォーマンスの25%が大幅に低下している。
論文 参考訳(メタデータ) (2024-11-08T21:22:37Z) - A Study on Bias Detection and Classification in Natural Language Processing [2.908482270923597]
我々の研究の目的は、ヘイトスピーチの検出と分類のタスクにおいて、公開データセットをもっとうまく組み合わせてモデルを訓練する方法を決定することである。
我々は,これらの課題を実験の展開と合わせて議論し,異なるデータセットの組み合わせがモデルの性能に大きな影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-08-14T11:49:24Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Annotation Error Detection: Analyzing the Past and Present for a More
Coherent Future [63.99570204416711]
我々は、潜在的なアノテーションの誤りを検知するための18の手法を再実装し、9つの英語データセット上で評価する。
アノテーションエラー検出タスクの新しい形式化を含む一様評価設定を定義する。
私たちはデータセットと実装を,使いやすく,オープンソースのソフトウェアパッケージとしてリリースしています。
論文 参考訳(メタデータ) (2022-06-05T22:31:45Z) - Less Learn Shortcut: Analyzing and Mitigating Learning of Spurious
Feature-Label Correlation [44.319739489968164]
ディープニューラルネットワークは、タスクを理解するのではなく、意思決定をするためのショートカットとしてデータセットバイアスを取ることが多い。
本研究では,モデルがバイアスデータ分布から学習する単語特徴とラベルとの素早い相関に着目した。
本手法は, 偏りのある例と下級者の偏り度を定量的に評価する学習戦略である。
論文 参考訳(メタデータ) (2022-05-25T09:08:35Z) - Representation Bias in Data: A Survey on Identification and Resolution
Techniques [26.142021257838564]
データ駆動型アルゴリズムは、それらが扱うデータと同程度にしか機能しないが、データセット、特にソーシャルデータはしばしば、マイノリティを適切に表現できない。
データにおける表現バイアスは、歴史的差別から、データ取得と作成方法におけるバイアスのサンプリングまで、さまざまな理由により起こりうる。
本稿では,後日どのように消費されるかに関わらず,表現バイアスをデータセットの特徴として同定し,解決する方法についての文献をレビューする。
論文 参考訳(メタデータ) (2022-03-22T16:30:22Z) - Learning to Model and Ignore Dataset Bias with Mixed Capacity Ensembles [66.15398165275926]
本稿では,データセット固有のパターンを自動的に検出・無視する手法を提案する。
我々の方法は、より高い容量モデルでアンサンブルで低容量モデルを訓練する。
視覚的質問応答データセットの10ポイントゲインを含む,すべての設定の改善を示す。
論文 参考訳(メタデータ) (2020-11-07T22:20:03Z) - Evaluating Factuality in Generation with Dependency-level Entailment [57.5316011554622]
本稿では,依存弧のレベルで分解するエンテーメントの新たな定式化を提案する。
このデータに基づいて訓練された依存関係弧包含モデルにより,文レベルの手法よりもパラフレーズ化や要約における現実的不整合を識別できることが示されている。
論文 参考訳(メタデータ) (2020-10-12T06:43:10Z) - Partially-Aligned Data-to-Text Generation with Distant Supervision [69.15410325679635]
我々はPADTG(Partially-Aligned Data-to-Text Generation)と呼ばれる新しい生成タスクを提案する。
自動的にアノテートされたデータをトレーニングに利用し、アプリケーションドメインを大幅に拡張するため、より実用的です。
我々のフレームワークは、全てのベースラインモデルより優れており、部分整合データの利用の可能性を検証する。
論文 参考訳(メタデータ) (2020-10-03T03:18:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。