論文の概要: AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety
- arxiv url: http://arxiv.org/abs/2508.05527v1
- Date: Thu, 07 Aug 2025 15:55:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-08 18:59:39.94743
- Title: AI vs. Human Moderators: A Comparative Evaluation of Multimodal LLMs in Content Moderation for Brand Safety
- Title(参考訳): AI対人間モデレーター:ブランド安全のためのコンテンツモデレーションにおけるマルチモーダルLCMの比較評価
- Authors: Adi Levi, Or Levi, Sardhendu Mishra, Jonathan Morra,
- Abstract要約: ブランド安全分類におけるMLLM(Multimodal Large Language Models)の能力をベンチマークする。
Gemini, GPT, LlamaなどのMLLMのマルチモーダルブランド安全性における有効性を示す。
本稿では,MLLMの限界と障害事例について,詳細な議論を行う。
- 参考スコア(独自算出の注目度): 2.9165586612027234
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As the volume of video content online grows exponentially, the demand for moderation of unsafe videos has surpassed human capabilities, posing both operational and mental health challenges. While recent studies demonstrated the merits of Multimodal Large Language Models (MLLMs) in various video understanding tasks, their application to multimodal content moderation, a domain that requires nuanced understanding of both visual and textual cues, remains relatively underexplored. In this work, we benchmark the capabilities of MLLMs in brand safety classification, a critical subset of content moderation for safe-guarding advertising integrity. To this end, we introduce a novel, multimodal and multilingual dataset, meticulously labeled by professional reviewers in a multitude of risk categories. Through a detailed comparative analysis, we demonstrate the effectiveness of MLLMs such as Gemini, GPT, and Llama in multimodal brand safety, and evaluate their accuracy and cost efficiency compared to professional human reviewers. Furthermore, we present an in-depth discussion shedding light on limitations of MLLMs and failure cases. We are releasing our dataset alongside this paper to facilitate future research on effective and responsible brand safety and content moderation.
- Abstract(参考訳): オンライン動画コンテンツの容量が急増するにつれて、安全でないビデオのモデレーションの需要は人間の能力を上回っ、手術と精神の健康上の問題の両方を引き起こしている。
近年の研究では、ビデオ理解タスクにおけるMLLM(Multimodal Large Language Models)のメリットが実証されているが、視覚とテキストの両方の微妙な理解を必要とする領域であるマルチモーダルコンテンツモデレーション(Multimodal Content Moderation)への応用は、いまだに未熟である。
本研究では,ブランドセーフティ分類におけるMLLMの能力をベンチマークし,コンテンツモデレーションの重要なサブセットとして,安全広告の整合性を検証した。
この目的のために,プロのレビュアーが多種多様なリスクカテゴリに細心の注意を払ってラベル付けした,新しいマルチモーダル・マルチ言語データセットを提案する。
Gemini, GPT, LlamaなどのMLLMがマルチモーダルブランドの安全性に与える影響を詳細に分析し, プロの人間レビュアーと比較して精度とコスト効率を評価する。
さらに,MLLMの限界や障害事例について,詳細な議論を行う。
この論文と共にデータセットをリリースし、ブランドの安全性とコンテンツのモデレーションを効果的かつ責任あるものにするための今後の研究を促進する。
関連論文リスト
- Watch, Listen, Understand, Mislead: Tri-modal Adversarial Attacks on Short Videos for Content Appropriateness Evaluation [1.0012740151280692]
本稿では,マルチモーダル大言語モデル(MLLM)の3次元安全性を評価するためのフレームワークを提案する。
本稿では,ヒト誘導型合成対向攻撃を用いたショートビデオ・マルチモーダル対向データセットを提案する。
最先端MLLMの大規模な実験により、攻撃成功率(ASR)の高い重大な脆弱性が明らかになった。
論文 参考訳(メタデータ) (2025-07-16T07:02:15Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。
現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。
本稿では,MLLMの対角的ロバスト性について述べる。
論文 参考訳(メタデータ) (2025-03-18T06:54:59Z) - Towards Safer Social Media Platforms: Scalable and Performant Few-Shot Harmful Content Moderation Using Large Language Models [9.42299478071576]
ソーシャルメディアプラットフォーム上の有害コンテンツは、ユーザーや社会に重大なリスクをもたらす。
現在のアプローチは、人間のモデレーター、教師付き分類器、大量のトレーニングデータに依存している。
我々は,Large Language Models (LLMs) を用いて,テキスト内学習による動的コンテンツのモデレーションを少数行う。
論文 参考訳(メタデータ) (2025-01-23T00:19:14Z) - SafeBench: A Safety Evaluation Framework for Multimodal Large Language Models [75.67623347512368]
MLLMの安全性評価を行うための総合的なフレームワークであるツールンを提案する。
我々のフレームワークは、包括的な有害なクエリデータセットと自動評価プロトコルで構成されています。
本研究では,広く利用されている15のオープンソースMLLMと6つの商用MLLMの大規模実験を行った。
論文 参考訳(メタデータ) (2024-10-24T17:14:40Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Safety of Multimodal Large Language Models on Images and Texts [33.97489213223888]
本稿では,MLLMの安全性の評価,攻撃,防衛に関する現在の取り組みを,画像やテキスト上で体系的に調査する。
MLLMの安全性を評価するための評価データセットと指標について概説する。
次に,MLLMの安全性に関する攻撃・防御技術について概説する。
論文 参考訳(メタデータ) (2024-02-01T05:57:10Z) - A Survey on Detection of LLMs-Generated Content [97.87912800179531]
LLMの生成する内容を検出する能力が最重要視されている。
既存の検出戦略とベンチマークの詳細な概要を提供する。
また、様々な攻撃から守るための多面的アプローチの必要性を示唆する。
論文 参考訳(メタデータ) (2023-10-24T09:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。