論文の概要: Noise Audits Improve Moral Foundation Classification
- arxiv url: http://arxiv.org/abs/2210.07415v1
- Date: Thu, 13 Oct 2022 23:37:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 17:10:16.739514
- Title: Noise Audits Improve Moral Foundation Classification
- Title(参考訳): 騒音監査によるモラル基礎分類の改善
- Authors: Negar Mokhberian, Frederic R. Hopp, Bahareh Harandizadeh, Fred
Morstatter, Kristina Lerman
- Abstract要約: 道徳は文化、アイデンティティ、感情において重要な役割を果たす。
近年の自然言語処理の進歩により、テキストで表される道徳的価値を大規模に分類することが可能であることが示されている。
モラル分類は、テキストのモラル表現をラベル付けするために人間のアノテータに依存している。
- 参考スコア(独自算出の注目度): 5.7685650619372595
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morality plays an important role in culture, identity, and emotion. Recent
advances in natural language processing have shown that it is possible to
classify moral values expressed in text at scale. Morality classification
relies on human annotators to label the moral expressions in text, which
provides training data to achieve state-of-the-art performance. However, these
annotations are inherently subjective and some of the instances are hard to
classify, resulting in noisy annotations due to error or lack of agreement. The
presence of noise in training data harms the classifier's ability to accurately
recognize moral foundations from text. We propose two metrics to audit the
noise of annotations. The first metric is entropy of instance labels, which is
a proxy measure of annotator disagreement about how the instance should be
labeled. The second metric is the silhouette coefficient of a label assigned by
an annotator to an instance. This metric leverages the idea that instances with
the same label should have similar latent representations, and deviations from
collective judgments are indicative of errors. Our experiments on three widely
used moral foundations datasets show that removing noisy annotations based on
the proposed metrics improves classification performance.
- Abstract(参考訳): 道徳は文化、アイデンティティ、感情において重要な役割を果たす。
近年の自然言語処理の進歩により、テキストで表現された道徳的価値を大規模に分類することが可能となった。
モラル分類は、人間のアノテータにテキストのモラル表現をラベル付けさせ、最先端のパフォーマンスを達成するためのトレーニングデータを提供する。
しかし、これらのアノテーションは本質的に主観的であり、いくつかのインスタンスは分類が難しいため、エラーや合意の欠如によるノイズの多いアノテーションをもたらす。
訓練データのノイズの存在は、テキストから道徳的基礎を正確に認識する分類器の能力を傷つける。
アノテーションのノイズを監査する2つの指標を提案する。
最初のメトリクスはインスタンスラベルのエントロピーであり、インスタンスのラベル付け方法に関するアノテーションの不一致のプロキシ尺度である。
第2の計量は、アノテータによってインスタンスに割り当てられたラベルのシルエット係数である。
この計量は、同一ラベルのインスタンスが類似の潜在表現を持つべきという考えを生かし、集合的判断からの偏差は誤りを示す。
3つのモラル基盤データセットを用いた実験により,提案するメトリクスに基づくノイズの少ないアノテーションの除去により,分類性能が向上することが示された。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - Concept-Based Explanations to Test for False Causal Relationships
Learned by Abusive Language Classifiers [7.022948483613113]
大規模な英語データセットで訓練された3つのよく知られた乱用言語分類器について考察する。
まず,すべての決定しきい値にまたがる課題に対して,その正確さを評価することによって,分類器が学習した不要な依存関係について検討する。
次に、概念に基づく説明指標を導入し、概念がラベルに与える影響を評価する。
論文 参考訳(メタデータ) (2023-07-04T19:57:54Z) - RankCSE: Unsupervised Sentence Representations Learning via Learning to
Rank [54.854714257687334]
本稿では,教師なし文表現学習のための新しい手法であるRangCSEを提案する。
コントラスト学習を伴うランキング一貫性とランキング蒸留を統一された枠組みに組み込む。
セマンティックテキスト類似性(STS)と転送タスク(TR)の両方について、広範な実験が実施されている。
論文 参考訳(メタデータ) (2023-05-26T08:27:07Z) - Using Natural Language Explanations to Rescale Human Judgments [81.66697572357477]
大規模言語モデル(LLM)を用いて順序付けアノテーションと説明を再スケールする手法を提案する。
我々は、アノテータのLikert評価とそれに対応する説明をLLMに入力し、スコア付けルーリックに固定された数値スコアを生成する。
提案手法は,合意に影響を及ぼさずに生の判断を再スケールし,そのスコアを同一のスコア付けルーリックに接する人間の判断に近づける。
論文 参考訳(メタデータ) (2023-05-24T06:19:14Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z) - Exploiting Context for Robustness to Label Noise in Active Learning [47.341705184013804]
本稿では,どのラベルが間違っているのかをシステムがどのように識別するか,ラベルノイズの負の影響を最小限に抑えるために,マルチクラスアクティブラーニングシステムをどのように適用できるか,といった課題に対処する。
我々は、これらの関係を符号化し、ノイズラベルが利用できる場合にグラフ上の新しい信念を得るために、ラベルなしデータのグラフィカルな表現を構築した。
これはシーン分類、アクティビティ分類、文書分類の3つの異なる応用で実証されている。
論文 参考訳(メタデータ) (2020-10-18T18:59:44Z) - Debiased Contrastive Learning [64.98602526764599]
我々は,同ラベルデータポイントのサンプリングを補正する,偏りのあるコントラスト目的の開発を行う。
実証的に、提案する目的は、視覚、言語、強化学習ベンチマークにおける表現学習の最先端を一貫して上回る。
論文 参考訳(メタデータ) (2020-07-01T04:25:24Z) - Class2Simi: A Noise Reduction Perspective on Learning with Noisy Labels [98.13491369929798]
そこで我々は,ノイズのあるクラスラベルを持つデータポイントを,ノイズの多い類似ラベルを持つデータペアに変換するClass2Simiというフレームワークを提案する。
Class2Simiは、この変換がミニバッチのオンザフライであるだけでなく、モデル予測上の損失をペアワイズに変化させるため、計算的に効率的である。
論文 参考訳(メタデータ) (2020-06-14T07:55:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。