論文の概要: Advancing Content Moderation: Evaluating Large Language Models for Detecting Sensitive Content Across Text, Images, and Videos
- arxiv url: http://arxiv.org/abs/2411.17123v1
- Date: Tue, 26 Nov 2024 05:29:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-27 13:37:01.799572
- Title: Advancing Content Moderation: Evaluating Large Language Models for Detecting Sensitive Content Across Text, Images, and Videos
- Title(参考訳): コンテンツモデレーションの強化:テキスト,画像,ビデオ間の感性コンテンツ検出のための大規模言語モデルの評価
- Authors: Nouar AlDahoul, Myles Joshua Toledo Tan, Harishwar Reddy Kasireddy, Yasir Zaki,
- Abstract要約: 政府、教育者、そして親はしばしば、そのようなコンテンツの拡散を規制し、制御し、制限する方法についてメディアプラットフォームと対立している。
自然言語処理やコンピュータビジョンといった技術は、センシティブなコンテンツを自動的に識別し、フィルタリングするために広く使われている。
テキストと画像の両方のコンテキストを理解するためのより洗練されたアルゴリズムは、コンテンツ検閲の改善のための部屋を開くかもしれない。
- 参考スコア(独自算出の注目度): 0.1399948157377307
- License:
- Abstract: The widespread dissemination of hate speech, harassment, harmful and sexual content, and violence across websites and media platforms presents substantial challenges and provokes widespread concern among different sectors of society. Governments, educators, and parents are often at odds with media platforms about how to regulate, control, and limit the spread of such content. Technologies for detecting and censoring the media contents are a key solution to addressing these challenges. Techniques from natural language processing and computer vision have been used widely to automatically identify and filter out sensitive content such as offensive languages, violence, nudity, and addiction in both text, images, and videos, enabling platforms to enforce content policies at scale. However, existing methods still have limitations in achieving high detection accuracy with fewer false positives and false negatives. Therefore, more sophisticated algorithms for understanding the context of both text and image may open rooms for improvement in content censorship to build a more efficient censorship system. In this paper, we evaluate existing LLM-based content moderation solutions such as OpenAI moderation model and Llama-Guard3 and study their capabilities to detect sensitive contents. Additionally, we explore recent LLMs such as GPT, Gemini, and Llama in identifying inappropriate contents across media outlets. Various textual and visual datasets like X tweets, Amazon reviews, news articles, human photos, cartoons, sketches, and violence videos have been utilized for evaluation and comparison. The results demonstrate that LLMs outperform traditional techniques by achieving higher accuracy and lower false positive and false negative rates. This highlights the potential to integrate LLMs into websites, social media platforms, and video-sharing services for regulatory and content moderation purposes.
- Abstract(参考訳): ヘイトスピーチ、ハラスメント、有害かつ性的コンテンツ、およびウェブサイトやメディアプラットフォームにおける暴力の拡散は、重大な課題を示し、社会の様々な分野に広く関心を喚起する。
政府、教育者、そして親はしばしば、そのようなコンテンツの拡散を規制し、制御し、制限する方法についてメディアプラットフォームと対立している。
メディアコンテンツを検知し検閲する技術は、これらの課題に対処するための重要な解決策である。
自然言語処理やコンピュータビジョンの技法は、攻撃的な言語、暴力、ヌード、中毒などのセンシティブなコンテンツをテキスト、画像、ビデオの両方で自動的に識別し、フィルタリングするために広く使われている。
しかし、既存の手法では、偽陽性や偽陰性が少なく、高い検出精度を達成するには限界がある。
したがって、テキストと画像の両方のコンテキストを理解するためのより洗練されたアルゴリズムは、より効率的な検閲システムを構築するために、コンテンツ検閲の改善のための部屋を開く可能性がある。
本稿では,OpenAIモデレーションモデルやLlama-Guard3などの既存のLCMベースのコンテンツモデレーションソリューションを評価し,その機能について検討する。
さらに,GPT,Gemini,Llamaなどの最近のLCMを用いて,メディア間の不適切なコンテンツを特定する。
Xつぶやき、Amazonのレビュー、ニュース記事、人間の写真、漫画、スケッチ、暴力ビデオなど、さまざまなテキストや視覚的なデータセットが評価と比較に利用されている。
その結果,LLMは高い精度と偽陽性,偽陰性率の低下により従来の技術よりも優れていた。
このことは、規制およびコンテンツモデレーションの目的で、LLMをウェブサイト、ソーシャルメディアプラットフォーム、ビデオ共有サービスに統合する可能性を強調している。
関連論文リスト
- Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - MultiHateClip: A Multilingual Benchmark Dataset for Hateful Video Detection on YouTube and Bilibili [11.049937698021054]
本研究は,ヘイトレキシコンと人間のアノテーションによって作成された,新しい多言語データセットであるMultiHateClipを提案する。
英語と中国語の両方のコンテンツを含む、YouTubeやBilibiliなどのプラットフォーム上でのヘイトフルなビデオの検出を強化することを目的としている。
論文 参考訳(メタデータ) (2024-07-28T08:19:09Z) - The Potential of Vision-Language Models for Content Moderation of
Children's Videos [1.0589208420411014]
本稿では、文脈固有の言語がコンテンツモデレーション性能にどのように影響するかを詳細に分析する。
コンテンツモデレーションのプロンプトにもっとコンテキストを含めることが重要です。
論文 参考訳(メタデータ) (2023-12-06T22:29:16Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z) - An Image is Worth a Thousand Toxic Words: A Metamorphic Testing
Framework for Content Moderation Software [64.367830425115]
ソーシャルメディアプラットフォームは、ヘイトスピーチ、悪意のある広告、ポルノなど、有害なコンテンツを拡散するためにますます悪用されている。
コンテンツモデレーション手法の開発と展開に多大な努力を払っているにもかかわらず、悪意のあるユーザは、テキストを画像に埋め込むことでモデレーションを回避することができる。
コンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-18T20:33:06Z) - Validating Multimedia Content Moderation Software via Semantic Fusion [16.322773343799575]
本稿では,マルチメディアコンテンツモデレーションソフトウェアの検証方法として,セマンティックフュージョンを紹介する。
5種類の商用コンテンツモデレーションソフトウェアと2種類の最先端モデルを3種類の有毒コンテンツに対してテストするためにDUOを使用している。
その結果,モード化ソフトウェアのテストでは,最大100%エラー検出率(EFR)が達成されることがわかった。
論文 参考訳(メタデータ) (2023-05-23T02:44:15Z) - A Video Is Worth 4096 Tokens: Verbalize Videos To Understand Them In
Zero Shot [67.00455874279383]
そこで本研究では,自然言語による記述を生成するために長編動画を音声化し,生成したストーリーの映像理解タスクを実行することを提案する。
提案手法は,ゼロショットであるにもかかわらず,ビデオ理解のための教師付きベースラインよりもはるかに優れた結果が得られる。
ストーリー理解ベンチマークの欠如を緩和するため,我々は,説得戦略の識別に関する計算社会科学における重要な課題に関する最初のデータセットを公開している。
論文 参考訳(メタデータ) (2023-05-16T19:13:11Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Fighting Malicious Media Data: A Survey on Tampering Detection and
Deepfake Detection [115.83992775004043]
近年のディープラーニング、特に深層生成モデルの発展により、知覚的に説得力のある画像や動画を低コストで制作するための扉が開かれた。
本稿では,現在のメディアタンパリング検出手法を概観し,今後の研究の課題と動向について論じる。
論文 参考訳(メタデータ) (2022-12-12T02:54:08Z) - Emotion Based Hate Speech Detection using Multimodal Learning [0.0]
本稿では,感情を表す聴覚特徴と,ヘイトフルなコンテンツを検出する意味的特徴を組み合わせた,最初のマルチモーダル深層学習フレームワークを提案する。
以上の結果から,感情的属性を取り入れることで,ヘイトフルなマルチメディアコンテンツの検出におけるテキストベースモデルよりも顕著な改善がもたらされることが示唆された。
論文 参考訳(メタデータ) (2022-02-13T05:39:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。