論文の概要: Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
- arxiv url: http://arxiv.org/abs/2512.03553v1
- Date: Wed, 03 Dec 2025 08:20:58 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:16:53.469565
- Title: Dynamic Content Moderation in Livestreams: Combining Supervised Classification with MLLM-Boosted Similarity Matching
- Title(参考訳): ライブストリームにおける動的コンテンツモデレーション:監視された分類とMLLMによる類似性マッチングの組み合わせ
- Authors: Wei Chee Yew, Hailun Xu, Sanjay Saha, Xiaotian Fan, Hiok Hian Ong, David Yuchen Wang, Kanchan Sarkar, Zhenheng Yang, Danhui Guan,
- Abstract要約: 本稿では、既知の違反に対する教師付き分類と、新規または微妙な事例に対する参照ベース類似性マッチングを組み合わせたハイブリッド・モデレーション・フレームワークを提案する。
プロダクションでは、分類パイプラインは80%の精度で67%のリコールを達成し、類似性パイプラインは80%の精度で76%のリコールを達成している。
これらの結果は、マルチモーダルコンテンツガバナンスに対するスケーラブルで適応可能なアプローチを示し、明示的な違反と新たな敵行動の両方に対処することができる。
- 参考スコア(独自算出の注目度): 2.9079112030626146
- License:
- Abstract: Content moderation remains a critical yet challenging task for large-scale user-generated video platforms, especially in livestreaming environments where moderation must be timely, multimodal, and robust to evolving forms of unwanted content. We present a hybrid moderation framework deployed at production scale that combines supervised classification for known violations with reference-based similarity matching for novel or subtle cases. This hybrid design enables robust detection of both explicit violations and novel edge cases that evade traditional classifiers. Multimodal inputs (text, audio, visual) are processed through both pipelines, with a multimodal large language model (MLLM) distilling knowledge into each to boost accuracy while keeping inference lightweight. In production, the classification pipeline achieves 67% recall at 80% precision, and the similarity pipeline achieves 76% recall at 80% precision. Large-scale A/B tests show a 6-8% reduction in user views of unwanted livestreams}. These results demonstrate a scalable and adaptable approach to multimodal content governance, capable of addressing both explicit violations and emerging adversarial behaviors.
- Abstract(参考訳): コンテンツモデレーションは、大規模なユーザー生成ビデオプラットフォーム、特に、タイムリーでマルチモーダルで、望ましくないコンテンツの進化に対して堅牢でなければならないライブストリーミング環境において、依然として重要な課題である。
本稿では、既知の違反に対する教師付き分類と、新規または微妙なケースに対する参照ベースの類似性マッチングを組み合わせた、生産規模でデプロイされたハイブリッドモデレーションフレームワークを提案する。
このハイブリッド設計により、明示的な違反と従来の分類を回避できる新しいエッジケースの両方を堅牢に検出することができる。
マルチモーダルな入力(テキスト、音声、視覚)は両方のパイプラインを通して処理され、マルチモーダルな大言語モデル(MLLM)がそれぞれに知識を蒸留し、推論を軽量に保ちながら精度を高める。
プロダクションでは、分類パイプラインは80%の精度で67%のリコールを達成し、類似性パイプラインは80%の精度で76%のリコールを達成している。
大規模なA/Bテストでは、望ましくないライブストリームのユーザビューが6~8%減少している。
これらの結果は、マルチモーダルコンテンツガバナンスに対するスケーラブルで適応可能なアプローチを示し、明示的な違反と新たな敵行動の両方に対処することができる。
関連論文リスト
- Steering Vision-Language-Action Models as Anti-Exploration: A Test-Time Scaling Approach [78.4812458793128]
動作チャンクの高忠実度検証に軽量な擬数推定器を適用したテスト時間スケーリングフレームワークである textbfTACO を提案する。
我々の手法は、オフライン強化学習(RL)における古典的な反探索原理に似ており、勾配のないため、計算上の大きな恩恵をもたらす。
論文 参考訳(メタデータ) (2025-12-02T14:42:54Z) - Bias Testing and Mitigation in Black Box LLMs using Metamorphic Relations [12.095552079739933]
本稿では,系統的バイアス評価と目標緩和のための統一的な枠組みを提案する。
われわれは6つの新しいメタモルフィック関係(MR)を導入する。
MRは直接バイアス誘発入力を意味論的に等価だが逆向きに挑戦する変種に変換する。
論文 参考訳(メタデータ) (2025-11-29T16:56:38Z) - Probabilistic Embeddings for Frozen Vision-Language Models: Uncertainty Quantification with Gaussian Process Latent Variable Models [9.47743870776814]
視覚言語モデル(VLM)は、画像とテキストを共有潜在空間にマッピングすることで、共同表現を学習する。
GroVEはGaussian Process Latent Variable Model (GPLVM)に基づいて構築され、画像とテキストの入力を統一表現にマッピングする共有低次元潜在空間を学習する。
GroVEは、クロスモーダル検索、視覚的質問応答、アクティブラーニングなど、複数の下流タスクにわたる最先端の不確実性キャリブレーションを実現する。
論文 参考訳(メタデータ) (2025-05-08T11:57:35Z) - Robust Multi-View Learning via Representation Fusion of Sample-Level Attention and Alignment of Simulated Perturbation [61.64052577026623]
実世界のマルチビューデータセットは、しばしば不均一で不完全である。
本稿では,表現融合とアライメントを同時に行う新しいロバストMVL法(RML)を提案する。
我々のRMLは自己教師型であり、正規化として下流のタスクにも適用できます。
論文 参考訳(メタデータ) (2025-03-06T07:01:08Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Threshold-Consistent Margin Loss for Open-World Deep Metric Learning [42.03620337000911]
画像検索にDeep Metric Learning (DML) で使われている既存の損失は、しばしば非均一なクラス内およびクラス間表現構造に繋がる。
不整合はしばしば、商用画像検索システムを展開する際のしきい値選択過程を複雑にする。
クラス間の動作特性の分散を定量化するOPIS(Operating-Point-Inconsistency-Score)と呼ばれる,新しい分散に基づく尺度を提案する。
論文 参考訳(メタデータ) (2023-07-08T21:16:41Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。