論文の概要: Uncertainty Estimation For Community Standards Violation In Online
Social Networks
- arxiv url: http://arxiv.org/abs/2009.14519v1
- Date: Wed, 30 Sep 2020 09:10:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:35:32.918811
- Title: Uncertainty Estimation For Community Standards Violation In Online
Social Networks
- Title(参考訳): オンラインソーシャルネットワークにおけるコミュニティ標準違反の不確実性推定
- Authors: Narjes Torabi, Nimar S. Arora, Emma Yu, Kinjal Shah, Wenshun Liu,
Michael Tingley
- Abstract要約: 毎日アップロードされる何十億ものコンテンツのうち、少数のコンテンツだけが明らかに違反しているため、自動化されたモデルによって削除できる。
有病率推定は残留項目の違反内容の分数推定のタスクである。
本研究では,このUPPタスクに対して,Bucketed-Beta-BinomialとBucketed-Gaussian Processの2つの新しい手法を提案する。
- 参考スコア(独自算出の注目度): 0.4893345190925178
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Online Social Networks (OSNs) provide a platform for users to share their
thoughts and opinions with their community of friends or to the general public.
In order to keep the platform safe for all users, as well as to keep it
compliant with local laws, OSNs typically create a set of community standards
organized into policy groups, and use Machine Learning (ML) models to identify
and remove content that violates any of the policies. However, out of the
billions of content that is uploaded on a daily basis only a small fraction is
so unambiguously violating that it can be removed by the automated models.
Prevalence estimation is the task of estimating the fraction of violating
content in the residual items by sending a small sample of these items to human
labelers to get ground truth labels. This task is exceedingly hard because even
though we can easily get the ML scores or features for all of the billions of
items we can only get ground truth labels on a few thousands of these items due
to practical considerations. Indeed the prevalence can be so low that even
after a judicious choice of items to be labeled there can be many days in which
not even a single item is labeled violating. A pragmatic choice for such low
prevalence, $10^{-4}$ to $10^{-5}$, regimes is to report the upper bound, or
$97.5\%$ confidence interval, prevalence (UBP) that takes the uncertainties of
the sampling and labeling processes into account and gives a smoothed estimate.
In this work we present two novel techniques Bucketed-Beta-Binomial and a
Bucketed-Gaussian Process for this UBP task and demonstrate on real and
simulated data that it has much better coverage than the commonly used
bootstrapping technique.
- Abstract(参考訳): オンラインソーシャルネットワーク(OSN)は、ユーザーが自分の考えや意見を友人や一般大衆のコミュニティと共有するためのプラットフォームを提供する。
プラットフォームをすべてのユーザに対して安全に保つとともに、ローカルな法律に準拠させるため、OSNは通常、ポリシーグループに組織されたコミュニティ標準のセットを作成し、マシンラーニング(ML)モデルを使用して、ポリシーに違反するコンテンツを識別および削除する。
しかし、毎日アップロードされる何十億ものコンテンツのうち、少数のコンテンツだけが明らかに違反しているため、自動化されたモデルによって削除できる。
有病率推定は,これらの項目の少量のサンプルを人間ラベルに送って残余項目の違反内容を推定し,真理ラベルを取得するタスクである。
なぜなら、何十億ものアイテムのmlスコアや機能を簡単に得ることができるにもかかわらず、実用上の考慮によって、これらのアイテムの数千の事実ラベルしか得られないからです。
実際、感染率は非常に低いため、ラベル付けすべきアイテムの公平な選択の後でも、1つのアイテムでさえも違反するラベルがつけられない日が数日間ある可能性がある。
10^{-4}$ to 10^{-5}$、レジームは、サンプリングおよびラベリングプロセスの不確実性を考慮して、滑らかな見積もりを与えるアップバウンドまたは97.5\%$信頼区間(ubp)を報告することである。
そこで本研究では,この ubp タスクに対してバケット・ベータ・バイノマル法とバケット・ガウシアン法という2つの新しい手法を提案し,実データとシミュレーションデータを用いて,一般的なブートストラップ法よりもはるかに優れたカバレッジを有することを示す。
関連論文リスト
- On the Inference of Sociodemographics on Reddit [5.524795406792588]
Redditのコメントから年齢、性別、パルチザン関連に関する850万以上の自己宣言からなる新しいデータセットを使用します。
私たちは、バイナリラベル(分類)の予測(i$)と、ユーザの集合の中での人口統計クラスの頻度を予測(ii$)という2つのタスクで行います。
論文 参考訳(メタデータ) (2025-02-07T16:11:39Z) - Label-Retrieval-Augmented Diffusion Models for Learning from Noisy
Labels [61.97359362447732]
ノイズの多いラベルからの学習は、実際のアプリケーションのための機械学習において、重要かつ長年にわたる問題である。
本稿では,生成モデルの観点からラベルノイズ問題を再構成する。
我々のモデルは、標準的な実世界のベンチマークデータセットで新しいSOTA(State-of-the-art)結果を達成する。
論文 参考訳(メタデータ) (2023-05-31T03:01:36Z) - Disincentivizing Polarization in Social Networks [10.758115514959593]
本稿では,フィルタバブルを回避するコンテンツキュレーションとパーソナライゼーションのモデルを提案する。
推奨を最適化するためのアルゴリズム保証を提供する。
実世界の嗜好データを用いて、我々のモデルでは、利用者は小さなユーティリティ損失のみで多様化の重荷を共有していることを確認した。
論文 参考訳(メタデータ) (2023-05-23T21:47:31Z) - Towards the Identifiability in Noisy Label Learning: A Multinomial
Mixture Approach [37.32107678838193]
雑音ラベル(LNL)からの学習は、ディープラーニングにおいて重要な役割を果たす。
最も有望なLNLメソッドは、ノイズの多いアノテーションでデータセットからクリーンなラベルサンプルを特定することに依存する。
そこで本研究では,最寄りの住民を対象に,雑音ラベルの分布を推定することで,新たな雑音ラベルを自動的に生成する手法を提案する。
論文 参考訳(メタデータ) (2023-01-04T01:54:33Z) - Dist-PU: Positive-Unlabeled Learning from a Label Distribution
Perspective [89.5370481649529]
本稿では,PU学習のためのラベル分布視点を提案する。
そこで本研究では,予測型と基底型のラベル分布間のラベル分布の整合性を追求する。
提案手法の有効性を3つのベンチマークデータセットで検証した。
論文 参考訳(メタデータ) (2022-12-06T07:38:29Z) - Explainable Abuse Detection as Intent Classification and Slot Filling [66.80201541759409]
我々は、システムがデータ検査だけで乱用を構成する事象を確実に学習できるという非現実的な期待を捨て、政策対応による悪用検出の概念を導入する。
目的分類とスロットフィリングのためのアーキテクチャは、モデル決定の根拠を提供しながら、悪用検出にどのように使用できるかを示す。
論文 参考訳(メタデータ) (2022-10-06T03:33:30Z) - The Minority Matters: A Diversity-Promoting Collaborative Metric
Learning Algorithm [154.47590401735323]
CML(Collaborative Metric Learning)は、リコメンデーションシステムにおいて人気のある手法として最近登場した。
本稿では,ユーザが複数のカテゴリの関心を持つ,困難なシナリオに焦点をあてる。
textitDiversity-Promoting Collaborative Metric Learning (DPCML) と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:02:18Z) - Online Selective Classification with Limited Feedback [82.68009460301585]
オンライン学習モデルにおいて、予測者がインスタンスの分類を控える可能性のある選択的分類について検討する。
私たちが考慮している設定の健全な2つの側面は、データが不可避である可能性があるため、データは不可避である可能性があるということです。
smash$tildeO(T1-mu)$ over abstention against Adaptive adversaries. smash$tildeO(T1-mu)$ incurring smash$tildeO(T1-mu)$ over abstention。
論文 参考訳(メタデータ) (2021-10-27T08:00:53Z) - Botcha: Detecting Malicious Non-Human Traffic in the Wild [2.3449131636069898]
悪質なボットはウェブ上のトラフィックの約4分の1を占め、パーソナライゼーションとレコメンデーションアルゴリズムのパフォーマンスを低下させます。
我々は、選択された完全非ランダムな仮定の違反に対して、より堅牢なポジティブ・アンラベル学習の2つの修正を提案する。
1つのパブリックデータセットと1つのプロプライエタリデータセットにおいて、提案手法は標準的なPU学習法よりも、Webデータ中の人間を特定するのに優れていることを示す。
論文 参考訳(メタデータ) (2021-03-02T02:49:49Z) - Multi-label Contrastive Predictive Coding [125.03510235962095]
差分相互情報(MI)推定器は、コントラスト予測符号化(CPC)のような教師なし表現学習法で広く利用されている。
本稿では,複数の正のサンプルを同時に同定する必要がある多ラベル分類問題に基づく新しい推定器を提案する。
同一量の負のサンプルを用いて複数ラベルのCPCが$log m$boundを超えることができる一方で、相互情報の有意な下限であることを示す。
論文 参考訳(メタデータ) (2020-07-20T02:46:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。