論文の概要: COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework
- arxiv url: http://arxiv.org/abs/2412.10435v2
- Date: Wed, 02 Jul 2025 21:50:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 19:52:56.738325
- Title: COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework
- Title(参考訳): COEF-VQ:マルチモーダルLLMフレームワークによるコスト効率の良いビデオ品質理解
- Authors: Xin Dong, Sen Jia, Ming Rui Wang, Yan Li, Zhenheng Yang, Bingfeng Deng, Hongyu Xiong,
- Abstract要約: COEF-VQは、ショートビデオプラットフォームにおけるビデオ品質の理解を高めるために設計された、斬新なケースケードMLLMフレームワークである。
我々のフレームワークは、完全なMLLMデプロイメントの強力な分類性能を維持しながら、GPU使用率を著しく削減する。
- 参考スコア(独自算出の注目度): 12.255542503707172
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, with the emergence of recent Multimodal Large Language Model (MLLM) technology, it has become possible to exploit its video understanding capability on different classification tasks. In practice, we face the difficulty of huge requirements for GPU resource if we need to deploy MLLMs online. In this paper, we propose COEF-VQ, a novel cascaded MLLM framework designed to enhance video quality understanding on the short-video platform while optimizing computational efficiency. Our approach integrates an entropy-based pre-filtering stage, where a lightweight model assesses uncertainty and selectively filters cases before passing them to the more computationally intensive MLLM for final evaluation. By prioritizing high-uncertainty samples for deeper analysis, our framework significantly reduces GPU usage while maintaining the strong classification performance of a full MLLM deployment. To demonstrate the effectiveness of COEF-VQ, we deploy this new framework onto the video management platform (VMP) at the short-video platform, and perform a series of detailed experiments on two in-house tasks related to video quality understanding. We show that COEF-VQ leads to substantial performance gains from the offline evaluation in these two tasks and effectively enhances platform safety with limit resource consumption, significantly reducing inappropriate content video view rate by 9.9% in a online A/B test without affecting engagement. Post-launch monitoring confirmed sustained improvements, validating its real-world impact.
- Abstract(参考訳): 近年,MLLM(Multimodal Large Language Model)技術が出現し,その映像理解能力を様々な分類タスクで活用できるようになった。
実際に、MLLMをオンラインでデプロイする必要がある場合、GPUリソースに対する巨大な要求の難しさに直面します。
本稿では,ショートビデオプラットフォーム上での映像品質の理解を最適化しつつ,計算効率を最適化する新しいMLLMフレームワークであるCOEF-VQを提案する。
提案手法はエントロピーに基づく事前フィルタリングの段階を統合し,不確実性を評価し,より計算集約的なMLLMに渡す前にケースを選択的にフィルタリングし,最終的な評価を行う。
より深い分析のための高不確実性サンプルの優先順位付けにより、完全なMLLMデプロイメントの強力な分類性能を維持しながら、GPU使用率を著しく低減する。
COEF-VQの有効性を示すため,本フレームワークをビデオ管理プラットフォーム(VMP)上に短ビデオプラットフォーム上に展開し,ビデオ品質理解に関連する2つの社内タスクについて詳細な実験を行った。
その結果,COEF-VQはこれらの2つのタスクのオフライン評価からかなりの性能向上をもたらし,資源消費を制限することでプラットフォームの安全性を効果的に向上させ,オンラインA/Bテストにおいて不適切なコンテンツ視聴率を9.9%削減することを示した。
打ち上げ後の監視は継続的な改善を確認し、実際の影響を検証した。
関連論文リスト
- VLMQ: Efficient Post-Training Quantization for Large Vision-Language Models via Hessian Augmentation [8.891793681316992]
ポストトレーニング量子化(PTQ)は、大規模なモデルを圧縮し、再トレーニングせずに推論を加速するための効果的なアプローチとして登場した。
PTQは大規模言語モデル (LLMs) の文脈で広く研究されているが、視覚言語モデル (VLMs) への適用性はまだ未検討である。
本稿では,VLMQ と呼ばれる VLM に適した PTQ フレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-05T11:57:03Z) - E-VRAG: Enhancing Long Video Understanding with Resource-Efficient Retrieval Augmented Generation [8.441615871480858]
ビデオ理解のための新規かつ効率的なビデオRAGフレームワークであるE-VRAGを提案する。
まず,階層的な問合せ分解に基づくフレーム前フィルタリング手法を適用し,無関係なフレームを除去する。
次に、フレームスコアリングに軽量なVLMを用い、モデルレベルでの計算コストをさらに削減する。
論文 参考訳(メタデータ) (2025-08-03T02:09:54Z) - Filter-And-Refine: A MLLM Based Cascade System for Industrial-Scale Video Content Moderation [21.18948097612397]
本稿では,ジェネレーティブMLLMを最小識別学習データを用いたマルチモーダル分類器に変換する効率的な手法を提案する。
そこで我々は,MLLMと軽量ルータモデルを統合するルータレベルのカスケードシステムを提案する。
オンライン評価では,本システムでは自動コンテンツモデレーション量を41%増加させ,カスケード展開では計算コストを1.5%に削減した。
論文 参考訳(メタデータ) (2025-07-23T04:52:58Z) - Reinforcement Learning Tuning for VideoLLMs: Reward Design and Data Efficiency [56.475612147721264]
本稿では、離散的かつ連続的な報酬信号を通して意味的推論と時間的推論の両方を監督する二重回帰定式化を提案する。
我々は,ビデオQA,テンポラルビデオグラウンディング,グラウンドドビデオQAを含む8つの代表的なビデオ理解タスクに対するアプローチを評価した。
その結果、MLLMを用いた推論中心のビデオ理解の進展において、報酬設計とデータ選択の重要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-06-02T17:28:26Z) - Vad-R1: Towards Video Anomaly Reasoning via Perception-to-Cognition Chain-of-Thought [58.321044666612174]
Vad-R1は、ビデオ異常推論のためのエンドツーエンドのMLLMベースのフレームワークである。
我々は、異常を認識する人間の過程をシミュレートするパーセプション・トゥ・コグニション・チェーン・オブ・ワット(P2C-CoT)を設計する。
また,MLLMの異常推論能力を明示的に動機付ける改良型強化学習アルゴリズムAVA-GRPOを提案する。
論文 参考訳(メタデータ) (2025-05-26T12:05:16Z) - PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement [83.89668902758243]
多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
論文 参考訳(メタデータ) (2025-05-18T07:10:40Z) - InternVideo2.5: Empowering Video MLLMs with Long and Rich Context Modeling [56.130911402831906]
本稿では,LRC(Long and rich context)モデリングによるビデオ大言語モデル(LM)の性能向上を目的とする。
InternVideo2.5の新バージョンを開発し、ビデオの細かい詳細を知覚するオリジナルのMLLMの能力の向上に焦点をあてる。
実験により、このユニークな設計ML LRCは、主流理解ベンチマークにおけるビデオMLLMの結果を大幅に改善することを示した。
論文 参考訳(メタデータ) (2025-01-21T18:59:00Z) - OLA-VLM: Elevating Visual Perception in Multimodal LLMs with Auxiliary Embedding Distillation [95.78870389271832]
現代のMLLMを開発するための標準的な慣行は、視覚エンコーダ(s)からLLMに特徴を供給し、自然言語を監督する訓練を行うことである。
目的とする視覚表現の集合からLLMの隠れ表現に知識を抽出する最初の手法であるOLA-VLMを提案する。
OLA-VLMは様々なベンチマークで平均マージンを2.5%向上させ,CV-BenchのDepthタスクでは8.7%向上した。
論文 参考訳(メタデータ) (2024-12-12T18:55:18Z) - AIM: Adaptive Inference of Multi-Modal LLMs via Token Merging and Pruning [19.68349294206012]
マルチモーダルLLMのための学習自由適応推論法を提案する。
最小限の設計により,本手法はビデオと画像の両方に応用できる。
同様の計算コストで,本手法は長いビデオ理解において最先端の手法よりも優れる。
論文 参考訳(メタデータ) (2024-12-04T11:47:57Z) - LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU [14.719538667881311]
Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-09-11T12:44:12Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - CLIPVQA:Video Quality Assessment via CLIP [56.94085651315878]
VQA問題(CLIPVQA)に対する効率的なCLIPベースのトランスフォーマー手法を提案する。
提案したCLIPVQAは、新しい最先端のVQAパフォーマンスを実現し、既存のベンチマークVQAメソッドよりも最大で37%の汎用性を実現している。
論文 参考訳(メタデータ) (2024-07-06T02:32:28Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - CREMA: Generalizable and Efficient Video-Language Reasoning via Multimodal Modular Fusion [58.15403987979496]
CREMAは、ビデオ推論のための一般化可能、高効率、モジュラリティ融合フレームワークである。
本稿では,軽量核融合モジュールとモーダリティ・シークエンシャル・トレーニング・ストラテジーによって支援された,新しいプログレッシブ・マルチモーダル・フュージョン設計を提案する。
ビデオQA や Video-Audio/3D/Touch/Thermal QA を含む7つのビデオ言語推論タスクについて検証を行った。
論文 参考訳(メタデータ) (2024-02-08T18:27:22Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。