論文の概要: Beyond Toxic: Toxicity Detection Datasets are Not Enough for Brand
Safety
- arxiv url: http://arxiv.org/abs/2303.15110v1
- Date: Mon, 27 Mar 2023 11:29:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 15:41:28.257798
- Title: Beyond Toxic: Toxicity Detection Datasets are Not Enough for Brand
Safety
- Title(参考訳): 毒性検出データセットはブランドの安全性に十分ではない
- Authors: Elizaveta Korotkova, Isaac Kwan Yin Chung
- Abstract要約: ブランド安全は、広告が表示されないコンテキストを特定することで、商業ブランドを保護することを目的としている。
我々は、一般的な毒性検出データセットを応用して、ブランドの安全特定データセットを構築する必要性を実証する。
テキスト分類における重み付けサンプリング戦略の効果を実証分析する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The rapid growth in user generated content on social media has resulted in a
significant rise in demand for automated content moderation. Various methods
and frameworks have been proposed for the tasks of hate speech detection and
toxic comment classification. In this work, we combine common datasets to
extend these tasks to brand safety. Brand safety aims to protect commercial
branding by identifying contexts where advertisements should not appear and
covers not only toxicity, but also other potentially harmful content. As these
datasets contain different label sets, we approach the overall problem as a
binary classification task. We demonstrate the need for building brand safety
specific datasets via the application of common toxicity detection datasets to
a subset of brand safety and empirically analyze the effects of weighted
sampling strategies in text classification.
- Abstract(参考訳): ソーシャルメディア上のユーザー生成コンテンツの急速な成長は、コンテンツの自動モデレーションに対する需要の大幅な増加をもたらした。
ヘイトスピーチの検出や有毒なコメント分類のための様々な方法や枠組みが提案されている。
この作業では、共通データセットを組み合わせて、これらのタスクをブランドセーフティに拡張します。
ブランドの安全性は、広告が現れるべきではない状況を特定し、有害性だけでなく、有害なコンテンツもカバーすることで、商業的なブランディングを保護することを目的としている。
これらのデータセットはラベルセットが異なるため、バイナリ分類タスクとして全体的な問題にアプローチする。
ブランドの安全性のサブセットに共通の毒性検出データセットを適用することで、ブランドの安全性固有のデータセットを構築する必要性を実証し、テキスト分類における重み付けサンプリング戦略の効果を実証的に分析する。
関連論文リスト
- ToVo: Toxicity Taxonomy via Voting [25.22398575368979]
投票と連鎖プロセスを統合したデータセット作成機構を提案する。
本手法は,各サンプルの分類基準を多種多様に設定する。
提案したメカニズムによって生成されたデータセットを使用してモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-21T02:35:30Z) - Mimicking User Data: On Mitigating Fine-Tuning Risks in Closed Large Language Models [53.50543146583101]
小さなデータセット上の微調整された大きな言語モデルは、特定の下流タスクのパフォーマンスを向上させることができる。
悪意のあるアクターは、ほぼすべてのタスク固有のデータセットの構造を微妙に操作することで、より危険なモデル行動を促進することができる。
本稿では,タスク形式を模倣した安全データとユーザデータのスタイルを混合した新しい緩和戦略を提案する。
論文 参考訳(メタデータ) (2024-06-12T18:33:11Z) - Named Entity Recognition for Monitoring Plant Health Threats in Tweets:
a ChouBERT Approach [0.0]
ChouBERTは訓練済みの言語モデルで、植物健康問題の観察に関するつぶやきを特定できる。
本稿では,小さなラベル付き集合上でのトークンレベルのアノテーションタスクに関するChouBERTのノウハウを更に研究することによって,ラベル付きデータの欠如に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:54:55Z) - Improve Text Classification Accuracy with Intent Information [0.38073142980733]
既存の手法ではラベル情報の利用を考慮せず、トークンを意識したシナリオではテキスト分類システムの性能が低下する可能性がある。
本稿では,テキスト分類タスクのラベル埋め込みとしてラベル情報を導入し,ベンチマークデータセット上での顕著な性能を実現する。
論文 参考訳(メタデータ) (2022-12-15T08:15:32Z) - Autoregressive Perturbations for Data Poisoning [54.205200221427994]
ソーシャルメディアからのデータスクレイピングは、不正なデータの使用に関する懸念が高まっている。
データ中毒攻撃は、スクラップ対策として提案されている。
より広範なデータセットにアクセスせずに有毒なデータを生成できる自動回帰(AR)中毒を導入する。
論文 参考訳(メタデータ) (2022-06-08T06:24:51Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Learning to Aggregate and Refine Noisy Labels for Visual Sentiment
Analysis [69.48582264712854]
本研究では,頑健な視覚的感情分析を行うための頑健な学習手法を提案する。
本手法は,トレーニング中にノイズラベルを集約・フィルタリングするために外部メモリに依存している。
公開データセットを用いたラベルノイズを用いた視覚的感情分析のベンチマークを構築した。
論文 参考訳(メタデータ) (2021-09-15T18:18:28Z) - Towards Real-World Prohibited Item Detection: A Large-Scale X-ray
Benchmark [53.9819155669618]
本稿では,PIDrayと命名された大規模データセットについて述べる。
大量の努力を払って、私たちのデータセットには、高品質な注釈付きセグメンテーションマスクとバウンディングボックスを備えた47,677ドルのX線画像に、禁止アイテムの12ドルカテゴリが含まれています。
提案手法は最先端の手法に対して,特に故意に隠された項目を検出するために好適に機能する。
論文 参考訳(メタデータ) (2021-08-16T11:14:16Z) - Incorporating Label Uncertainty in Understanding Adversarial Robustness [17.65850501514483]
最先端モデルによって誘導される誤差領域は、ランダムに選択されたサブセットよりもラベルの不確実性が高い傾向を示す。
この観測は,ラベルの不確実性を考慮した濃度推定アルゴリズムの適用を動機付けている。
論文 参考訳(メタデータ) (2021-07-07T14:26:57Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。