論文の概要: The 'Problem' of Human Label Variation: On Ground Truth in Data,
Modeling and Evaluation
- arxiv url: http://arxiv.org/abs/2211.02570v1
- Date: Fri, 4 Nov 2022 16:38:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-07 15:58:54.510272
- Title: The 'Problem' of Human Label Variation: On Ground Truth in Data,
Modeling and Evaluation
- Title(参考訳): ラベル変動の「問題」--データ・モデリング・評価における根拠真理について
- Authors: Barbara Plank
- Abstract要約: 我々は、人間のラベルの変動という大きなオープンな問題が持続し、我々の分野を前進させるためには、より注意が必要であると論じている。
我々は、これまで提案された異なるラベルのバリエーションの概念を整理し、公開可能なデータセットのリポジトリを非集約ラベルで提供し、これまで提案されてきたアプローチを描写し、ギャップを識別し、今後の方向性を提案する。
- 参考スコア(独自算出の注目度): 21.513743126525622
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human variation in labeling is often considered noise. Annotation projects
for machine learning (ML) aim at minimizing human label variation, with the
assumption to maximize data quality and in turn optimize and maximize machine
learning metrics. However, this conventional practice assumes that there exists
a ground truth, and neglects that there exists genuine human variation in
labeling due to disagreement, subjectivity in annotation or multiple plausible
answers. In this position paper, we argue that this big open problem of human
label variation persists and critically needs more attention to move our field
forward. This is because human label variation impacts all stages of the ML
pipeline: data, modeling and evaluation. However, few works consider all of
these dimensions jointly; and existing research is fragmented. We reconcile
different previously proposed notions of human label variation, provide a
repository of publicly-available datasets with un-aggregated labels, depict
approaches proposed so far, identify gaps and suggest ways forward. As datasets
are becoming increasingly available, we hope that this synthesized view on the
'problem' will lead to an open discussion on possible strategies to devise
fundamentally new directions.
- Abstract(参考訳): 人間のラベル付けのバリエーションは、しばしばノイズと見なされる。
機械学習(ML)のアノテーションプロジェクトは、データ品質の最大化と機械学習メトリクスの最適化と最大化を前提として、人間のラベルの変動を最小限にすることを目的としている。
しかし、この慣行は根拠となる真理が存在すると仮定し、不一致、注釈における主観性、あるいは複数の妥当な答えによって、ラベル付けに真の人間のバリエーションが存在することを無視する。
本稿では,人間のラベル変動に対するこの大きなオープンな問題は持続的であり,この分野を前進させるためにはより注意が必要であると論じる。
これは、人間のラベルの変化がMLパイプラインのすべてのステージ、すなわちデータ、モデリング、評価に影響を与えるためである。
しかし、これらすべての次元を共同で検討する研究はほとんどなく、既存の研究は断片化されている。
これまでに提案してきたヒトラベル変異の概念の相違、未集約ラベルを用いた公開データセットのレポジトリの提供、これまで提案されてきたアプローチの描写、ギャップの特定、今後の提案などについて検討した。
データセットがますます利用可能になるにつれて、この‘問題’に対する総合的な見解が、基本的な新しい方向性を考案するための戦略に関するオープンな議論につながることを期待しています。
関連論文リスト
- "All that Glitters": Approaches to Evaluations with Unreliable Model and Human Annotations [0.0]
「金」と「地底真理」のラベルには誤りがある。
本研究では、専門家による極めて低い信頼性の文脈においても、そのような疑問に答える方法を示す。
論文 参考訳(メタデータ) (2024-11-23T19:18:08Z) - Probabilistic Test-Time Generalization by Variational Neighbor-Labeling [62.158807685159736]
本稿では、ドメインの一般化を試み、モデルが未確認のターゲットドメインにデプロイされる前に、ソースドメインにのみトレーニングされる。
ソーストレーニングされたモデルをテスト時にターゲットドメインに一般化するための、ターゲットサンプルの擬似ラベル化の確率。
より堅牢な擬似ラベルを生成するために、近隣のターゲットサンプルの情報を含む変分隣接ラベル。
論文 参考訳(メタデータ) (2023-07-08T18:58:08Z) - Improving Classifier Robustness through Active Generation of Pairwise
Counterfactuals [22.916599410472102]
本稿では,カウンターファクト・ジェネレーティブ・モデルを用いて多種多様なカウンターファクト・モデルを生成する新しいフレームワークを提案する。
少量の人間注釈付き対実データ(10%)で、学習ラベルを用いた対実データ拡張データセットを生成することができることを示す。
論文 参考訳(メタデータ) (2023-05-22T23:19:01Z) - Fairness and Bias in Truth Discovery Algorithms: An Experimental
Analysis [7.575734557466221]
群衆労働者は信頼できないラベルを提供することもある。
真理探索(TD)アルゴリズムを用いて、競合するワーカー応答からコンセンサスラベルを決定する。
我々はTDアルゴリズムのバイアスと公平性を体系的に研究する。
論文 参考訳(メタデータ) (2023-04-25T04:56:35Z) - Self-similarity Driven Scale-invariant Learning for Weakly Supervised
Person Search [66.95134080902717]
自己相似性駆動型スケール不変学習(SSL)という新しいワンステップフレームワークを提案する。
本稿では,ネットワークを前景と学習スケール不変の機能に集中させるための,マルチスケール・エクステンプラー・ブランチを提案する。
PRWおよびCUHK-SYSUデータベースの実験により,本手法の有効性が示された。
論文 参考訳(メタデータ) (2023-02-25T04:48:11Z) - Identifiable Latent Causal Content for Domain Adaptation under Latent Covariate Shift [82.14087963690561]
マルチソースドメイン適応(MSDA)は、ラベル付き対象ドメインのラベル予測関数を学習する際の課題に対処する。
本稿では,潜在コンテンツ変数と潜時スタイル変数とともに,ドメイン間の潜時雑音を導入し,複雑な因果生成モデルを提案する。
提案手法は、シミュレーションと実世界の両方のデータセットに対して、例外的な性能と有効性を示す。
論文 参考訳(メタデータ) (2022-08-30T11:25:15Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - An Empirical Investigation of Learning from Biased Toxicity Labels [15.822714574671412]
我々は,人間の注釈付きラベルの小さなデータセットと,合成されたラベルの大きいがノイズの多いデータセットを,異なるトレーニング戦略が活用できるかを検討する。
これらの手法の精度と公平性、および両者のトレードオフを評価する。
論文 参考訳(メタデータ) (2021-10-04T17:19:57Z) - Towards Good Practices for Efficiently Annotating Large-Scale Image
Classification Datasets [90.61266099147053]
多数の画像の分類ラベルを収集するための効率的なアノテーション戦略を検討する。
人間のラベリング作業を最小化するための修正とベストプラクティスを提案します。
ImageNet100の125kイメージサブセットのシミュレーション実験では、平均で0.35のアノテーションで80%のトップ-1の精度でアノテートできることが示されている。
論文 参考訳(メタデータ) (2021-04-26T16:29:32Z) - HOT-VAE: Learning High-Order Label Correlation for Multi-Label
Classification via Attention-Based Variational Autoencoders [8.376771467488458]
High-order Tie-in Variational Autoencoder (HOT-VAE) 形式ごとの適応的高階ラベル相関学習。
本モデルが鳥の分布データセット上で既存の最先端のアプローチを上回ることを実験的に検証した。
論文 参考訳(メタデータ) (2021-03-09T04:30:28Z) - DomainMix: Learning Generalizable Person Re-Identification Without Human
Annotations [89.78473564527688]
本稿では,ラベル付き合成データセットとラベル付き実世界のデータセットを用いてユニバーサルモデルをトレーニングする方法を示す。
このように、人間のアノテーションはもはや不要であり、大規模で多様な現実世界のデータセットにスケーラブルである。
実験結果から,提案手法は完全な人間のアノテーションで訓練されたアノテーションとほぼ同等であることがわかった。
論文 参考訳(メタデータ) (2020-11-24T08:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。