論文の概要: Filter-And-Refine: A MLLM Based Cascade System for Industrial-Scale Video Content Moderation
- arxiv url: http://arxiv.org/abs/2507.17204v1
- Date: Wed, 23 Jul 2025 04:52:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.861666
- Title: Filter-And-Refine: A MLLM Based Cascade System for Industrial-Scale Video Content Moderation
- Title(参考訳): Filter-And-Refine:産業用ビデオコンテンツモデレーションのためのMLLMベースのカスケードシステム
- Authors: Zixuan Wang, Jinghao Shi, Hanzhong Liang, Xiang Shen, Vera Wen, Zhiqian Chen, Yifan Wu, Zhixin Zhang, Hongyu Xiong,
- Abstract要約: 本稿では,ジェネレーティブMLLMを最小識別学習データを用いたマルチモーダル分類器に変換する効率的な手法を提案する。
そこで我々は,MLLMと軽量ルータモデルを統合するルータレベルのカスケードシステムを提案する。
オンライン評価では,本システムでは自動コンテンツモデレーション量を41%増加させ,カスケード展開では計算コストを1.5%に削減した。
- 参考スコア(独自算出の注目度): 21.18948097612397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective content moderation is essential for video platforms to safeguard user experience and uphold community standards. While traditional video classification models effectively handle well-defined moderation tasks, they struggle with complicated scenarios such as implicit harmful content and contextual ambiguity. Multimodal large language models (MLLMs) offer a promising solution to these limitations with their superior cross-modal reasoning and contextual understanding. However, two key challenges hinder their industrial adoption. First, the high computational cost of MLLMs makes full-scale deployment impractical. Second, adapting generative models for discriminative classification remains an open research problem. In this paper, we first introduce an efficient method to transform a generative MLLM into a multimodal classifier using minimal discriminative training data. To enable industry-scale deployment, we then propose a router-ranking cascade system that integrates MLLMs with a lightweight router model. Offline experiments demonstrate that our MLLM-based approach improves F1 score by 66.50% over traditional classifiers while requiring only 2% of the fine-tuning data. Online evaluations show that our system increases automatic content moderation volume by 41%, while the cascading deployment reduces computational cost to only 1.5% of direct full-scale deployment.
- Abstract(参考訳): ビデオプラットフォームにとって効果的なコンテンツモデレーションは、ユーザエクスペリエンスの保護とコミュニティ標準の維持に不可欠である。
従来のビデオ分類モデルは、明確に定義されたモデレーションタスクを効果的に処理するが、暗黙的な有害コンテンツや文脈の曖昧さといった複雑なシナリオに苦しむ。
MLLM(Multimodal large language model)は、これらの制限に対して、優れたクロスモーダル推論と文脈理解によって、有望な解決策を提供する。
しかし、2つの重要な課題が産業採用を妨げている。
第一に、MLLMの高計算コストは、フルスケールのデプロイメントを非現実的にする。
第二に、識別的分類のための生成モデルを適用することは、未解決の研究課題である。
本稿では、まず、最小限の識別学習データを用いて、生成MLLMをマルチモーダル分類器に変換する効率的な方法を提案する。
産業規模の展開を実現するために,MLLMと軽量ルータモデルを統合するルータレベルのカスケードシステムを提案する。
オフライン実験により、MLLMベースのアプローチにより従来の分類器よりもF1スコアが66.50%向上し、微調整データの2%しか必要としないことが示された。
オンライン評価では,本システムでは自動コンテンツモデレーション量を41%増加させ,カスケード展開では計算コストを1.5%に削減した。
関連論文リスト
- MLZero: A Multi-Agent System for End-to-end Machine Learning Automation [48.716299953336346]
MLZeroはLarge Language Models(LLM)を利用した新しいマルチエージェントフレームワークである。
認知認識モジュールが最初に使用され、生のマルチモーダル入力を知覚コンテキストに変換する。
MLZeroは、MLE-Bench Liteで優れたパフォーマンスを示し、成功率とソリューション品質の両方で競合他社を上回っている。
論文 参考訳(メタデータ) (2025-05-20T05:20:53Z) - SHA256 at SemEval-2025 Task 4: Selective Amnesia -- Constrained Unlearning for Large Language Models via Knowledge Isolation [12.838593066237452]
大規模言語モデル(LLM)は、トレーニング中に頻繁にセンシティブな情報を記憶し、公開可能なモデルをデプロイする際にリスクを生じさせる。
本稿では, 因果媒介分析と層固有の最適化を組み合わせた, 対象未学習におけるSemEval-2025タスク4の解を提案する。
論文 参考訳(メタデータ) (2025-04-17T15:05:40Z) - COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework [12.255542503707172]
COEF-VQは、ショートビデオプラットフォームにおけるビデオ品質の理解を高めるために設計された、斬新なケースケードMLLMフレームワークである。
我々のフレームワークは、完全なMLLMデプロイメントの強力な分類性能を維持しながら、GPU使用率を著しく削減する。
論文 参考訳(メタデータ) (2024-12-11T08:10:32Z) - Liquid: Language Models are Scalable and Unified Multi-modal Generators [112.71734051183726]
Liquidは視覚的理解と生成をシームレスに統合する自動回帰生成パラダイムである。
従来のマルチモーダルな大言語モデル(MLLM)とは異なり、Liquidは単一の大言語モデルを用いてこの統合を実現する。
初めてLiquidは、ビジュアルタスクと言語タスクの統一トレーニングによって必然的にパフォーマンスが低下する、スケーリングの法則を明らかにした。
論文 参考訳(メタデータ) (2024-12-05T16:48:16Z) - Efficient Self-Improvement in Multimodal Large Language Models: A Model-Level Judge-Free Approach [31.654345704242512]
本稿では,新しいモデルレベルの判断自由自己改善フレームワークを提案する。
本手法では,検証ループにおけるMLLMの必要性を解消しつつ,制御されたフィードバック機構を用いる。
計算要求が大幅に小さく、精度とリコールの精度が向上する。
論文 参考訳(メタデータ) (2024-11-26T00:44:37Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [72.68665884790002]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
本稿では,教師モデルの頑健な表現を視覚的,言語的両面で伝達するために,MDist(Multimodal Distillation)を導入する。
また,提案した蒸留戦略の可能性をフル活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - $γ-$MoD: Exploring Mixture-of-Depth Adaptation for Multimodal Large Language Models [87.43596173378913]
我々は既存のMLLMに対して$gamma$-MoDという革新的な戦略を提案する。
$gamma$-MoD では、MLLM における MoD の展開を導くための新しい計量法が提案されている。
MLLMの計算空間を最大化する2つの新しい設計法を提案する。
論文 参考訳(メタデータ) (2024-10-17T17:59:53Z) - LLaVA-MoD: Making LLaVA Tiny via MoE Knowledge Distillation [41.05687297326706]
LLaVA-MoDは、小規模マルチモーダル言語モデルの効率的なトレーニングを可能にするために設計されたフレームワークである。
スパースミキサーアーキテクチャを言語モデルに統合することにより、s-MLLMのネットワーク構造を最適化する。
また,包括的知識移動を確保するために,先進的な知識移動戦略を提案する。
論文 参考訳(メタデータ) (2024-08-28T15:52:23Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - MobiLlama: Towards Accurate and Lightweight Fully Transparent GPT [87.4910758026772]
近年のLarge Language Models (LLM) 開発において,"Bigger the Better" が主流となっている。
本稿では、リソース制約のあるデバイスに対して、正確かつ効率的なSLM(Small Language Models)を設計する上での課題に対処し、"less is more"パラダイムについて考察する。
論文 参考訳(メタデータ) (2024-02-26T18:59:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。