論文の概要: Balancing Quality and Variation: Spam Filtering Distorts Data Label Distributions
- arxiv url: http://arxiv.org/abs/2509.08217v1
- Date: Wed, 10 Sep 2025 01:22:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.282129
- Title: Balancing Quality and Variation: Spam Filtering Distorts Data Label Distributions
- Title(参考訳): 品質と変動のバランス:スパンフィルタがデータラベリングを歪ませる
- Authors: Eve Fleisig, Matthias Orlikowski, Philipp Cimiano, Dan Klein,
- Abstract要約: 我々は、アノテータフィルタリングの設定範囲が主観的タスクの変動の保存にどのように影響するかを評価する。
その結果、アノテータ除去のための保守的設定(5%)が最良であることが判明した。
これらの結果は,ラベルの多様性を考慮したスパム除去手法の必要性を浮き彫りにした。
- 参考スコア(独自算出の注目度): 18.226008559486562
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For machine learning datasets to accurately represent diverse opinions in a population, they must preserve variation in data labels while filtering out spam or low-quality responses. How can we balance annotator reliability and representation? We empirically evaluate how a range of heuristics for annotator filtering affect the preservation of variation on subjective tasks. We find that these methods, designed for contexts in which variation from a single ground-truth label is considered noise, often remove annotators who disagree instead of spam annotators, introducing suboptimal tradeoffs between accuracy and label diversity. We find that conservative settings for annotator removal (<5%) are best, after which all tested methods increase the mean absolute error from the true average label. We analyze performance on synthetic spam to observe that these methods often assume spam annotators are less random than real spammers tend to be: most spammers are distributionally indistinguishable from real annotators, and the minority that are distinguishable tend to give fixed answers, not random ones. Thus, tasks requiring the preservation of variation reverse the intuition of existing spam filtering methods: spammers tend to be less random than non-spammers, so metrics that assume variation is spam fare worse. These results highlight the need for spam removal methods that account for label diversity.
- Abstract(参考訳): 機械学習データセットが集団のさまざまな意見を正確に表現するためには、スパムや低品質の応答をフィルタリングしながらデータラベルの変動を保存する必要がある。
アノテーションの信頼性と表現のバランスをとるには?
我々は,アノテータフィルタリングにおけるヒューリスティックスの範囲が主観的タスクの変動の保存にどのように影響するかを実証的に評価した。
これらの手法は,1つの基幹ラベルからの変動がノイズと見なされる状況を想定し,スパムアノテータの代わりに反対するアノテータを取り除き,精度とラベルの多様性を最適以下にトレードオフする。
その結果,アノテータ除去のための保守的設定(<5%)が最適であることが判明した。
スパマーの多くは、実際のアノテータと分布的に区別不能であり、区別可能なマイノリティは、ランダムなアノテータではなく、固定された回答を与える傾向にある。
スパマーは非スパマーよりもランダムでない傾向があるため、変動を仮定する指標はスパムを悪用する。
これらの結果は,ラベルの多様性を考慮したスパム除去手法の必要性を浮き彫りにした。
関連論文リスト
- The Lipschitz-Variance-Margin Tradeoff for Enhanced Randomized Smoothing [85.85160896547698]
ディープニューラルネットワークの現実的な応用は、ノイズの多い入力や敵攻撃に直面した場合、その不安定な予測によって妨げられる。
入力にノイズ注入を頼りに、認証された半径を持つ効率的な分類器を設計する方法を示す。
新たな認証手法により、ランダムな平滑化による事前学習モデルの使用が可能となり、ゼロショット方式で現在の認証半径を効果的に改善できる。
論文 参考訳(メタデータ) (2023-09-28T22:41:47Z) - Bayesian Self-Supervised Contrastive Learning [16.903874675729952]
本稿では,BCL損失と呼ばれる新たな自己監督型コントラスト損失を提案する。
鍵となる考え方は、ベイズフレームワークの下で真の正のサンプルをサンプリングするために望ましいサンプリング分布を設計することである。
実験はBCL損失の有効性と優越性を検証した。
論文 参考訳(メタデータ) (2023-01-27T12:13:06Z) - Filter and evolve: progressive pseudo label refining for semi-supervised
automatic speech recognition [5.735000563764309]
低品質の擬似ラベルは、決定境界を誤認し、性能を低下させる。
本稿では,低品質な擬似ラベルをフィルタする簡易かつ効果的な手法を提案する。
LibriSpeechの実験では、これらのフィルターされたサンプルにより、洗練されたモデルによりより正確な予測が得られることが示されている。
論文 参考訳(メタデータ) (2022-10-28T16:15:58Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Robust Spammer Detection by Nash Reinforcement Learning [64.80986064630025]
我々は,スパマーとスパム検知器が互いに現実的な目標を競うミニマックスゲームを開発する。
提案アルゴリズムは,スパマーが混在するスパマーが実用目標を達成するのを確実に防止できる平衡検出器を確実に見つけることができることを示す。
論文 参考訳(メタデータ) (2020-06-10T21:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。