論文の概要: A Holistic Approach to Undesired Content Detection in the Real World
- arxiv url: http://arxiv.org/abs/2208.03274v1
- Date: Fri, 5 Aug 2022 16:47:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-08 12:10:37.088804
- Title: A Holistic Approach to Undesired Content Detection in the Real World
- Title(参考訳): 実世界における望ましくないコンテンツ検出への総合的アプローチ
- Authors: Todor Markov, Chong Zhang, Sandhini Agarwal, Tyna Eloundou, Teddy Lee,
Steven Adler, Angela Jiang, Lilian Weng
- Abstract要約: 実世界のコンテンツモデレーションのための堅牢な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツの設計やラベリング命令を含む、慎重に設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
- 参考スコア(独自算出の注目度): 4.626056557184189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a holistic approach to building a robust and useful natural
language classification system for real-world content moderation. The success
of such a system relies on a chain of carefully designed and executed steps,
including the design of content taxonomies and labeling instructions, data
quality control, an active learning pipeline to capture rare events, and a
variety of methods to make the model robust and to avoid overfitting. Our
moderation system is trained to detect a broad set of categories of undesired
content, including sexual content, hateful content, violence, self-harm, and
harassment. This approach generalizes to a wide range of different content
taxonomies and can be used to create high-quality content classifiers that
outperform off-the-shelf models.
- Abstract(参考訳): 実世界のコンテンツモデレーションのための堅牢で有用な自然言語分類システムを構築するための総合的なアプローチを提案する。
このようなシステムの成功は、コンテンツ分類やラベリング命令の設計、データ品質管理、レアイベントをキャプチャするアクティブな学習パイプライン、モデルの堅牢化と過剰フィッティングを回避するためのさまざまな方法など、注意深く設計され実行された一連のステップに依存している。
我々のモデレーションシステムは、性的コンテンツ、憎悪コンテンツ、暴力、自傷行為、ハラスメントなど、望ましくないコンテンツの幅広いカテゴリーを検出するために訓練されている。
このアプローチは、幅広い異なるコンテンツ分類に一般化し、既成モデルを上回る高品質なコンテンツ分類器を作成するのに使用できる。
関連論文リスト
- ToVo: Toxicity Taxonomy via Voting [25.22398575368979]
投票と連鎖プロセスを統合したデータセット作成機構を提案する。
本手法は,各サンプルの分類基準を多種多様に設定する。
提案したメカニズムによって生成されたデータセットを使用してモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-06-21T02:35:30Z) - Labeling Comic Mischief Content in Online Videos with a Multimodal Hierarchical-Cross-Attention Model [10.666877191424792]
そこで本研究では,コミック誤字検出のための新しいエンドツーエンドマルチモーダルシステムを提案する。
本稿では,ビデオ,テキスト(字幕と字幕),音声の3つのモードからなる目標タスクのための新しいデータセットをリリースする。
その結果,提案手法はロバストなベースラインよりも大幅に改善されていることがわかった。
論文 参考訳(メタデータ) (2024-06-12T03:16:45Z) - Contextualization Distillation from Large Language Model for Knowledge
Graph Completion [51.126166442122546]
我々は、差別的かつ生成的なKGCフレームワークと互換性のあるプラグイン・アンド・プレイ方式であるContextualization Distillation戦略を導入する。
提案手法は,大規模言語モデルに対して,コンパクトで構造的な三重項を文脈に富んだセグメントに変換するように指示することから始まる。
多様なデータセットとKGC技術にわたる総合的な評価は、我々のアプローチの有効性と適応性を強調している。
論文 参考訳(メタデータ) (2024-01-28T08:56:49Z) - CLAP: Isolating Content from Style through Contrastive Learning with Augmented Prompts [11.752632557524969]
コンテンツの特徴を元の表現から切り離すために,データ拡張によるコントラスト学習を提案する。
多様なデータセットを対象とした実験では、ゼロショットと少数ショットの分類タスクが大幅に改善された。
論文 参考訳(メタデータ) (2023-11-28T03:00:59Z) - Recognizing Unseen Objects via Multimodal Intensive Knowledge Graph
Propagation [68.13453771001522]
画像の領域と対応するセマンティック埋め込みとをマッチングする多モード集中型ZSLフレームワークを提案する。
我々は、大規模な実世界のデータに基づいて、広範囲な実験を行い、そのモデルを評価する。
論文 参考訳(メタデータ) (2023-06-14T13:07:48Z) - Safety and Fairness for Content Moderation in Generative Models [0.7992463811844456]
テキスト・ツー・イメージ生成技術の責任あるコンテンツモデレーションを概念化する理論的枠組みを提供する。
我々は、安全、公正、およびメートル法エクイティの概念を定義し、区別し、各ドメインで起こりうる害を列挙する。
我々は、データ駆動型コンテンツのモデレーション決定を可能にするハーネスのスタイルについて、まとめて結論付けている。
論文 参考訳(メタデータ) (2023-06-09T01:37:32Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Representation Learning for the Automatic Indexing of Sound Effects
Libraries [79.68916470119743]
タスク固有のがデータセットに依存しない表現は、クラス不均衡、一貫性のないクラスラベル、不十分なデータセットサイズなどのデータ問題にうまく対処できることを示す。
詳細な実験結果は、メトリック学習アプローチと異なるデータセット間の学習方法が表現効率に与える影響を示している。
論文 参考訳(メタデータ) (2022-08-18T23:46:13Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - NewsEmbed: Modeling News through Pre-trained DocumentRepresentations [5.007237648361745]
そこで本研究では,人間をほとんど監督せず,意味に関連のある新鮮文書とそのトピックラベルをマイニングする新しい手法を提案する。
提案手法は,何十億もの高品質な有機的学習例を提供し,自然に多言語環境に拡張可能であることを示す。
論文 参考訳(メタデータ) (2021-06-01T15:59:40Z) - Automatic Validation of Textual Attribute Values in E-commerce Catalog
by Learning with Limited Labeled Data [61.789797281676606]
そこで我々はMetaBridgeと呼ばれる新しいメタ学習潜伏変数アプローチを提案する。
限られたラベル付きデータを持つカテゴリのサブセットから、転送可能な知識を学ぶことができる。
ラベルのないデータで、目に見えないカテゴリの不確実性を捉えることができる。
論文 参考訳(メタデータ) (2020-06-15T21:31:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。