論文の概要: Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning
- arxiv url: http://arxiv.org/abs/2307.10189v1
- Date: Fri, 7 Jul 2023 22:09:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:38:01.363336
- Title: Subjective Crowd Disagreements for Subjective Data: Uncovering
Meaningful CrowdOpinion with Population-level Learning
- Title(参考訳): 主観的データに対する主観的集団分離:人口レベルの学習による意味のある集団分離
- Authors: Tharindu Cyril Weerasooriya, Sarah Luger, Saloni Poddar, Ashiqur R.
KhudaBukhsh, Christopher M. Homan
- Abstract要約: emphCrowdOpinionは、言語特徴とラベル分布を用いて、類似した項目をラベル分布のより大きなサンプルにまとめる教師なし学習手法である。
ソーシャルメディアから利用可能な5つのベンチマークデータセット(アノテータの不一致のレベルが異なる)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
- 参考スコア(独自算出の注目度): 8.530934084017966
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Human-annotated data plays a critical role in the fairness of AI systems,
including those that deal with life-altering decisions or moderating
human-created web/social media content. Conventionally, annotator disagreements
are resolved before any learning takes place. However, researchers are
increasingly identifying annotator disagreement as pervasive and meaningful.
They also question the performance of a system when annotators disagree.
Particularly when minority views are disregarded, especially among groups that
may already be underrepresented in the annotator population. In this paper, we
introduce \emph{CrowdOpinion}\footnote{Accepted for publication at ACL 2023},
an unsupervised learning based approach that uses language features and label
distributions to pool similar items into larger samples of label distributions.
We experiment with four generative and one density-based clustering method,
applied to five linear combinations of label distributions and features. We use
five publicly available benchmark datasets (with varying levels of annotator
disagreements) from social media (Twitter, Gab, and Reddit). We also experiment
in the wild using a dataset from Facebook, where annotations come from the
platform itself by users reacting to posts. We evaluate \emph{CrowdOpinion} as
a label distribution prediction task using KL-divergence and a single-label
problem using accuracy measures.
- Abstract(参考訳): 人間のアノテートされたデータは、人生を変える決定や、人間が作成したweb/ソーシャルメディアコンテンツのモデレートなど、aiシステムの公正性において重要な役割を果たす。
伝統的に、アノテータの不一致は学習が行われる前に解決される。
しかし、研究者はアノテーションの不一致が広範で意味のあるものであると認識している。
また、アノテータが同意しない場合、システムのパフォーマンスも疑問視する。
特に少数派の見解が無視されている場合、特にアノテーターの人口で既に過小評価されているかもしれないグループの間では特にである。
本稿では,言語特徴とラベル分布を用いて類似項目をラベル分布のより大きなサンプルにまとめる,教師なし学習に基づくアプローチである ACL 2023} の出版を前提とした "emph{CrowdOpinion}\footnote{Accepted for publication" を紹介する。
ラベル分布と特徴の線形結合に応用した4つの生成と1つの密度に基づくクラスタリング法を実験した。
ソーシャルメディア(Twitter、Gab、Reddit)から公開されている5つのベンチマークデータセット(さまざまなレベルのアノテーションの不一致)を使用します。
また、Facebookのデータセットを使って、投稿に反応するユーザーによって、プラットフォーム自体からアノテーションが送られてくるような実験も行っています。
我々は,KL分割を用いたラベル分布予測タスクとして \emph{CrowdOpinion} を評価する。
関連論文リスト
- Capturing Perspectives of Crowdsourced Annotators in Subjective Learning Tasks [9.110872603799839]
監督された分類は、人間によって注釈付けされたデータセットに大きく依存する。
毒性分類などの主観的なタスクでは、これらのアノテーションはラッカー間での合意が低くなることが多い。
本研究では、主観的分類タスクのためのtextbfAnnotator Awares for Texts (AART) を提案する。
論文 参考訳(メタデータ) (2023-11-16T10:18:32Z) - JointMatch: A Unified Approach for Diverse and Collaborative
Pseudo-Labeling to Semi-Supervised Text Classification [65.268245109828]
半教師付きテキスト分類(SSTC)は、ラベルのないデータを活用する能力によって注目を集めている。
擬似ラベルに基づく既存のアプローチは、擬似ラベルバイアスと誤り蓄積の問題に悩まされる。
我々は、最近の半教師付き学習からアイデアを統一することでこれらの課題に対処する、SSTCの総合的なアプローチであるJointMatchを提案する。
論文 参考訳(メタデータ) (2023-10-23T05:43:35Z) - Everyone's Voice Matters: Quantifying Annotation Disagreement Using
Demographic Information [11.227630261409706]
本研究では,タスクのテキストとアノテータの階層的背景情報を用いて,アノテータ間の不一致の程度を推定できるかどうかを検討する。
その結果, 性別, 民族, 教育水準などのアノテータの人口統計情報を知ることは, 意見の不一致の予測に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-12T14:04:53Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Learning from Crowds with Sparse and Imbalanced Annotations [29.596070201105274]
クラウドソーシングは、非専門家の群衆を頼りにすることで、効率的なラベリングソリューションとして自らを確立した。
一般的には、各インスタンスを複数のワーカに配布するが、各ワーカはデータのサブセットのみをアノテートする。
本稿では、自信ある擬似アノテーションを段階的に追加し、アノテーション分布を再バランスさせることにより、自己学習に基づく1つのアプローチ、Self-Crowdを提案する。
論文 参考訳(メタデータ) (2021-07-11T13:06:20Z) - Disentangling Sampling and Labeling Bias for Learning in Large-Output
Spaces [64.23172847182109]
異なる負のサンプリングスキームが支配的ラベルと稀なラベルで暗黙的にトレードオフパフォーマンスを示す。
すべてのラベルのサブセットで作業することで生じるサンプリングバイアスと、ラベルの不均衡に起因するデータ固有のラベルバイアスの両方に明示的に対処する統一された手段を提供する。
論文 参考訳(メタデータ) (2021-05-12T15:40:13Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - Measuring Model Biases in the Absence of Ground Truth [2.802021236064919]
根拠となる真理ラベルに依存しない公平さと偏見の測定に新たなフレーミングを導入する。
代わりに、ある画像のモデル予測を、自然言語処理(NLP)で使用される「言葉の袋」アプローチに類似したラベルの集合として扱う。
異なる相関指標の統計的性質(特に正規化)が,「生成バイアス」が検出されるラベルの異なる集合にどのようにつながるかを実証する。
論文 参考訳(メタデータ) (2021-03-05T01:23:22Z) - Contrastive Examples for Addressing the Tyranny of the Majority [83.93825214500131]
我々は,グループメンバーシップを介在する,オリジナルのデータセットと新たなデータポイントからなるバランスの取れたトレーニングデータセットを作成することを提案する。
コントラッシブ・サンプル(英語版)と呼ばれるこれらのデータポイントを学習するための強力なツールとして、現在の生成的敵ネットワークが重要であることを示す。
論文 参考訳(メタデータ) (2020-04-14T14:06:44Z) - Neighborhood-based Pooling for Population-level Label Distribution
Learning [5.790608871289107]
監視された機械学習は、しばしば人間の注釈付きデータを必要とする。
人口レベルのラベル分布学習は、人間のアノテータの集団の意見のサンプルとして、各データ項目に対するアノテーションの収集を扱う。
本稿では,サンプリングサイズを考慮したPLDLのためのアルゴリズムフレームワークと新しい統計的テストを提案する。
論文 参考訳(メタデータ) (2020-03-16T18:52:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。