論文の概要: Measuring the Prevalence of Policy Violating Content with ML Assisted Sampling and LLM Labeling
- arxiv url: http://arxiv.org/abs/2602.18518v1
- Date: Thu, 19 Feb 2026 19:38:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-24 17:42:02.127804
- Title: Measuring the Prevalence of Policy Violating Content with ML Assisted Sampling and LLM Labeling
- Title(参考訳): MLによるサンプリングとLCMラベリングによるポリシー違反の頻度の測定
- Authors: Attila Dobi, Aravindh Manickavasagam, Benjamin Thompson, Xiaohan Yang, Faisal Farooq,
- Abstract要約: コンテンツ安全性チームは、報告されるものだけでなく、ユーザが実際に経験するものを反映したメトリクスが必要です。
特定の日に特定のポリシーに違反したコンテンツに移行したユーザビュー(印象)のごく一部について、有病率について調査する。
ML支援重みを用いた印象ストリームから日々の確率サンプルを抽出する設計に基づく計測システムを提案する。
- 参考スコア(独自算出の注目度): 1.2178992475191555
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Content safety teams need metrics that reflect what users actually experience, not only what is reported. We study prevalence: the fraction of user views (impressions) that went to content violating a given policy on a given day. Accurate prevalence measurement is challenging because violations are often rare and human labeling is costly, making frequent, platform-representative studies slow. We present a design-based measurement system that (i) draws daily probability samples from the impression stream using ML-assisted weights to concentrate label budget on high-exposure and high-risk content while preserving unbiasedness, (ii) labels sampled items with a multimodal LLM governed by policy prompts and gold-set validation, and (iii) produces design-consistent prevalence estimates with confidence intervals and dashboard drilldowns. A key design goal is one global sample with many pivots: the same daily sample supports prevalence by surface, viewer geography, content age, and other segments through post-stratified estimation. We describe the statistical estimators, variance and confidence interval construction, label-quality monitoring, and an engineering workflow that makes the system configurable across policies.
- Abstract(参考訳): コンテンツ安全性チームは、報告されるものだけでなく、ユーザが実際に経験するものを反映したメトリクスが必要です。
特定の日に特定のポリシーに違反したコンテンツに移行したユーザビュー(印象)のごく一部について、有病率について調査する。
正確な精度測定は、違反はまれであり、人間のラベル付けはコストがかかり、頻繁にプラットフォーム表現の研究が遅くなるため、難しい。
設計に基づく計測システムを提案する。
一 ML支援重量を用いて印象流から毎日の確率サンプルを抽出し、不偏性を維持しつつ、高露光・高リスクコンテンツにラベル予算を集中させる。
二 政策プロンプト及び金セットの検証により管理されたマルチモーダル LLM によるサンプル商品のラベル及び
(iii) 信頼区間とダッシュボードのドリルダウンを有する設計一貫性の有病率推定値を生成する。
主要な設計目的は、多くのピボットを持つグローバルサンプルである。同じ日次サンプルは、階層化後の推定を通じて、表面、ビューア地理、コンテンツ年齢、その他のセグメントの頻度をサポートする。
本稿では, 統計的推定器, ばらつきと信頼区間の構成, ラベル品質モニタリング, および, ポリシー間でシステムを構成するためのエンジニアリングワークフローについて述べる。
関連論文リスト
- Surrogate-Based Prevalence Measurement for Large-Scale A/B Testing [0.23332469289621785]
本稿では,Emphsurrogateに基づく有病率測定フレームワークを提案する。
実験単位の評価から高価なラベリングを分離する。
実験単位のラベル付けジョブを必要とせずに、スケーラブルで低遅延の精度測定を可能にする。
論文 参考訳(メタデータ) (2026-02-18T00:45:46Z) - VIOLA: Towards Video In-Context Learning with Minimal Annotations [20.810620293371027]
我々は、豊富なラベルのないデータと最小限の専門家監督を相乗化するためのフレームワークVIOLAを紹介する。
我々のフレームワークは、低リソース環境で様々なベースラインを著しく上回り、最小限のアノテーションコストでロバストな適応を実現しています。
論文 参考訳(メタデータ) (2026-01-22T00:35:30Z) - Combating Noisy Labels through Fostering Self- and Neighbor-Consistency [120.4394402099635]
ラベルノイズは様々な現実世界のシナリオで広まり、教師付きディープラーニングの課題を提起する。
我々は、Jo-SNC(textbfSelf- と textbfNeighbor-textbfConsistency に基づくサンプル選択とモデル正規化)というノイズロバスト手法を提案する。
我々は、クラスごとの選択閾値を調整するための自己適応型データ駆動しきい値設定方式を設計する。
論文 参考訳(メタデータ) (2026-01-19T07:55:29Z) - Correctness Coverage Evaluation for Medical Multiple-Choice Question Answering Based on the Enhanced Conformal Prediction Framework [2.9599960287815144]
大規模言語モデル(LLM)は、医療質問応答(QA)のシナリオでますます採用されている。
LLMは幻覚や非現実的な情報を生成でき、高い医療業務における信頼性を損なう。
本稿では,医療用マルチ選択質問応答タスクのための拡張型コンフォーマル予測フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-07T15:22:10Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Probably Approximately Precision and Recall Learning [60.00180898830079]
機械学習における重要な課題は、一方的なフィードバックの頻度である。
本稿では,確率的近似(PAC)フレームワークを導入し,各入力をラベルの集合にマッピングする仮説を定めている。
我々は、正のデータのみから学習する新しいアルゴリズムを開発し、実現可能な場合において最適なサンプル複雑性を実現する。
論文 参考訳(メタデータ) (2024-11-20T04:21:07Z) - MBIAS: Mitigating Bias in Large Language Models While Retaining Context [2.321323878201932]
多様なアプリケーションにおける大規模言語モデル(LLM)は、生成されたコンテンツのコンテキスト整合性を損なうことなく安全性を保証する必要がある。
安全対策に特化して設計されたカスタムデータセットに微調整を施したLLMフレームワークであるMBIASを紹介する。
MBIASは、主要な情報を保持しながら、LLM出力のバイアスや有害な要素を著しく減少させるように設計されている。
実証分析により、BIASは標準評価では30%以上、多様な人口統計検査では90%以上、偏見と毒性の低下を達成していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-18T13:31:12Z) - VDC: Versatile Data Cleanser based on Visual-Linguistic Inconsistency by Multimodal Large Language Models [46.72546879204724]
現実の世界では、データセットには、バックドア攻撃による毒サンプル、クラウドソーシングにおけるノイズの多いラベル、さらにはそれらのハイブリッドなど、汚れたサンプルが含まれている。
既存の検出器は、他のドメインの汚れたサンプルを扱う場合、しばしば一般化が弱くなるような、有毒なサンプルやノイズのあるラベルを検出することのみに焦点を当てている。
マルチモーダル大規模言語モデル(MLLM)の超越した機能を利用した多目的データクリーニング(VDC)を提案する。
論文 参考訳(メタデータ) (2023-09-28T07:37:18Z) - One Positive Label is Sufficient: Single-Positive Multi-Label Learning
with Label Enhancement [71.9401831465908]
本研究では,SPMLL (Single- positive multi-label learning) について検討した。
ラベルエンハンスメントを用いた単陽性MultIラベル学習という新しい手法を提案する。
ベンチマークデータセットの実験により,提案手法の有効性が検証された。
論文 参考訳(メタデータ) (2022-06-01T14:26:30Z) - Estimation of Fair Ranking Metrics with Incomplete Judgments [70.37717864975387]
本研究では,4つの評価指標のサンプリング手法と推定手法を提案する。
ラベル付きアイテムの数が極めて少ない場合でも動作可能な頑健で偏りのない推定器を定式化する。
論文 参考訳(メタデータ) (2021-08-11T10:57:00Z) - Accelerated Policy Evaluation: Learning Adversarial Environments with
Adaptive Importance Sampling [19.81658135871748]
安全クリティカルシステムにおけるバイアスまたは不正確な政策評価は、予期せぬ破滅的な失敗を引き起こす可能性がある。
本稿では,稀な事象を同時に発見し,稀な事象の確率を推定するAPE手法を提案する。
APEは、関数近似器を組み込むことにより、大きな離散空間や連続空間にスケーラブルである。
論文 参考訳(メタデータ) (2021-06-19T20:03:26Z) - Foreseeing the Benefits of Incidental Supervision [83.08441990812636]
本稿では,実験を行なわずに,特定の目標タスクに対して,様々な種類の偶発信号の利点を定量化できるかどうかを考察する。
本稿では,PABI(PAC-Bayesian motivated informativeness measure)を提案する。
論文 参考訳(メタデータ) (2020-06-09T20:59:42Z) - Robust Learning Through Cross-Task Consistency [92.42534246652062]
クロスタスク整合性を用いた学習向上のための,広く適用可能な完全計算手法を提案する。
クロスタスク一貫性による学習は,より正確な予測と,アウト・オブ・ディストリビューション・インプットの一般化につながることを観察する。
論文 参考訳(メタデータ) (2020-06-07T09:24:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。