論文の概要: COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework
- arxiv url: http://arxiv.org/abs/2412.10435v1
- Date: Wed, 11 Dec 2024 08:10:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 14:01:05.293373
- Title: COEF-VQ: Cost-Efficient Video Quality Understanding through a Cascaded Multimodal LLM Framework
- Title(参考訳): COEF-VQ:マルチモーダルLLMフレームワークによるコスト効率の良いビデオ品質理解
- Authors: Xin Dong, Sen Jia, Hongyu Xiong,
- Abstract要約: 我々は,TikTok上での映像品質の理解向上を目的とした,新しいケースケードMLLMフレームワークであるCOEF-VQを提案する。
COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイした。
この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
- 参考スコア(独自算出の注目度): 11.512418684814026
- License:
- Abstract: Recently, with the emergence of recent Multimodal Large Language Model (MLLM) technology, it has become possible to exploit its video understanding capability on different classification tasks. In practice, we face the difficulty of huge requirements for GPU resource if we need to deploy MLLMs online. In this paper, we propose COEF-VQ, a novel cascaded MLLM framework for better video quality understanding on TikTok. To this end, we first propose a MLLM fusing all visual, textual and audio signals, and then develop a cascade framework with a lightweight model as pre-filtering stage and MLLM as fine-consideration stage, significantly reducing the need for GPU resource, while retaining the performance demonstrated solely by MLLM. To demonstrate the effectiveness of COEF-VQ, we deployed this new framework onto the video management platform (VMP) at TikTok, and performed a series of detailed experiments on two in-house tasks related to video quality understanding. We show that COEF-VQ leads to substantial performance gains with limit resource consumption in these two tasks.
- Abstract(参考訳): 近年,MLLM(Multimodal Large Language Model)技術が出現し,その映像理解能力を様々な分類タスクで活用できるようになった。
実際に、MLLMをオンラインでデプロイする必要がある場合、GPUリソースに対する巨大な要求の難しさに直面します。
本稿では,TikTok上での映像品質理解のための新しいMLLMフレームワークであるCOEF-VQを提案する。
そこで我々はまず,すべての視覚的,テキスト的,音声的信号を融合したMLLMを提案し,その上で,プリフィルタステージとしての軽量モデルと,GPUリソースの必要性を著しく低減し,MLLMでのみ実証された性能を維持しながら,MLLMを微調整ステージとしたカスケードフレームワークを開発した。
COEF-VQの有効性を示すため、TikTokのビデオ管理プラットフォーム(VMP)に新しいフレームワークをデプロイし、ビデオ品質理解に関連する2つの社内タスクについて詳細な実験を行った。
この2つのタスクにおいて,COEF-VQは資源消費を抑えながら,大幅な性能向上をもたらすことを示す。
関連論文リスト
- LLaVA-KD: A Framework of Distilling Multimodal Large Language Models [70.19607283302712]
本稿では,l-MLLMからs-MLLMへ知識を伝達する新しいフレームワークを提案する。
具体的には,l-MLLMとs-MLLMの視覚的テキスト出力分布のばらつきを最小限に抑えるために,MDist(Multimodal Distillation)を導入する。
また,S-MLLMの可能性を完全に活用するための3段階学習手法を提案する。
論文 参考訳(メタデータ) (2024-10-21T17:41:28Z) - NVLM: Open Frontier-Class Multimodal LLMs [64.00053046838225]
NVLM 1.0は、フロンティアクラスのマルチモーダル言語モデル(LLM)のファミリーであり、視覚言語タスクの最先端結果を実現する。
トレーニング効率とマルチモーダル推論能力を両立させる新しいアーキテクチャを提案する。
我々は、NVLM-1.0モデルのための生産級マルチモーダリティを開発し、視覚言語タスクに優れる。
論文 参考訳(メタデータ) (2024-09-17T17:59:06Z) - Inf-MLLM: Efficient Streaming Inference of Multimodal Large Language Models on a Single GPU [14.719538667881311]
Inf-MLLMはマルチモーダル大言語モデル(MLLM)のための効率的な推論フレームワークである
Inf-MLLM は,複数の LLM と MLLM が 4M 個の長文に対して安定した性能を実現し,単一の GPU 上での 1 時間ビデオとのマルチラウンド会話を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-09-11T12:44:12Z) - TC-LLaVA: Rethinking the Transfer from Image to Video Understanding with Temporal Considerations [23.188508465235717]
本稿では,映像理解タスクにおけるモデルの能力を高めるための2つの戦略を提案する。
第1のアプローチは、回転位置埋め込み(RoPE)と時間認識デュアルRoPEの強化に焦点を当てる。
第二のアプローチは、フレームワイドのブロック因果マスクによる注意マスクの強化である。
論文 参考訳(メタデータ) (2024-09-05T02:54:17Z) - Dense Connector for MLLMs [89.50595155217108]
Dense Connector - 既存のMLLMを大幅に強化するプラグイン・アンド・プレイ型ヴィジュアル言語コネクタ。
この上に構築されたEfficient Dense Connectorは,視覚トークンの25%に過ぎず,LLaVA-v1.5に匹敵するパフォーマンスを実現する。
画像のみを訓練したわれわれのモデルは、ビデオ理解でも際立ったゼロショットの能力を誇示している。
論文 参考訳(メタデータ) (2024-05-22T16:25:03Z) - From Image to Video, what do we need in multimodal LLMs? [19.85928004619801]
MLLM(Multimodal Large Language Models)は、マルチモーダル情報を理解する上で重要な機能を示す。
画像LLMからの映像LLMのための資源効率の高い開発パイプラインRED-VILLMを提案する。
我々のアプローチは、よりコスト効率が高くスケーラブルなマルチモーダルモデルの進歩の可能性を強調します。
論文 参考訳(メタデータ) (2024-04-18T02:43:37Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - InfMLLM: A Unified Framework for Visual-Language Tasks [44.29407348046122]
マルチモーダルな大言語モデル (MLLM) が注目されている。
この作業は、LLMがより視覚的な言語に関連したタスクに取り組むことを可能にすることを目的としている。
InfMLLMは、最先端(SOTA)パフォーマンスまたは最近のMLLMに匹敵するパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-11-12T09:58:16Z) - VideoLLM: Modeling Video Sequence with Large Language Models [70.32832021713864]
既存のビデオ理解モデルは、しばしばタスク固有であり、多様なタスクを扱う包括的な能力に欠ける。
我々は,事前学習したLLMのシーケンス推論機能を活用する,VideoLLMという新しいフレームワークを提案する。
VideoLLMは慎重に設計されたModality and Semantic Translatorを組み込んでおり、様々なモードからの入力を統一されたトークンシーケンスに変換する。
論文 参考訳(メタデータ) (2023-05-22T17:51:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。