論文の概要: LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
- arxiv url: http://arxiv.org/abs/2504.16030v1
- Date: Tue, 22 Apr 2025 16:52:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:17:18.015006
- Title: LiveCC: Learning Video LLM with Streaming Speech Transcription at Scale
- Title(参考訳): LiveCC: 大規模音声書き起こしによるビデオLLM学習
- Authors: Joya Chen, Ziyun Zeng, Yiqi Lin, Wei Li, Zejun Ma, Mike Zheng Shou,
- Abstract要約: 本研究では,ASR単語とビデオフレームをタイムスタンプに応じて密にインターリーブする新たなストリーミングトレーニング手法を提案する。
ASRを用いた視覚言語表現における従来の研究と比較して,本手法はASRのストリーミング特性に自然に適合する。
実験の結果,LiveCC-7B-Instructモデルは,リアルタイムモードでも高度な72Bモデルを上回るコメント品質が得られることがわかった。
- 参考スコア(独自算出の注目度): 35.58838734226919
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video large language models (Video LLMs) often depend on costly human annotations or proprietary model APIs (e.g., GPT-4o) to produce training data, which limits their training at scale. In this paper, we explore large-scale training for Video LLM with cheap automatic speech recognition (ASR) transcripts. Specifically, we propose a novel streaming training approach that densely interleaves the ASR words and video frames according to their timestamps. Compared to previous studies in vision-language representation with ASR, our method naturally fits the streaming characteristics of ASR, thus enabling the model to learn temporally-aligned, fine-grained vision-language modeling. To support the training algorithm, we introduce a data production pipeline to process YouTube videos and their closed captions (CC, same as ASR), resulting in Live-CC-5M dataset for pre-training and Live-WhisperX-526K dataset for high-quality supervised fine-tuning (SFT). Remarkably, even without SFT, the ASR-only pre-trained LiveCC-7B-Base model demonstrates competitive general video QA performance and exhibits a new capability in real-time video commentary. To evaluate this, we carefully design a new LiveSports-3K benchmark, using LLM-as-a-judge to measure the free-form commentary. Experiments show our final LiveCC-7B-Instruct model can surpass advanced 72B models (Qwen2.5-VL-72B-Instruct, LLaVA-Video-72B) in commentary quality even working in a real-time mode. Meanwhile, it achieves state-of-the-art results at the 7B/8B scale on popular video QA benchmarks such as VideoMME and OVOBench, demonstrating the broad generalizability of our approach. All resources of this paper have been released at https://showlab.github.io/livecc.
- Abstract(参考訳): 最近のビデオ大言語モデル(ビデオLLM)は、トレーニングデータを生成するために、コストのかかる人的アノテーションやプロプライエタリなモデルAPI(例:GPT-4o)に依存していることが多い。
本稿では,安価な自動音声認識(ASR)によるビデオLLMの大規模訓練について検討する。
具体的には,ASR単語とビデオフレームをタイムスタンプに応じて密にインターリーブする新たなストリーミングトレーニング手法を提案する。
ASRを用いた視覚言語表現における従来の研究と比較すると、本手法は自然にASRのストリーミング特性に適合し、時間的に整列した微粒な視覚言語モデリングを学習することができる。
トレーニングアルゴリズムをサポートするために、YouTubeビデオとそのクローズドキャプション(ASRと同じCC)を処理するデータ生成パイプラインを導入し、事前トレーニング用のLive-CC-5Mデータセットと高品質教師付き微調整(SFT)のためのLive-WhisperX-526Kデータセットを提供する。
注目すべきは、SFTがなくても、ASRのみに事前訓練されたLiveCC-7B-Baseモデルは、競争力のある一般的なビデオQAパフォーマンスを示し、リアルタイムビデオ解説に新たな能力を示すことである。
これを評価するために, LLM-as-a-judge を用いて新しいLiveSports-3K ベンチマークを慎重に設計した。
実験の結果,最後のLiveCC-7B-インストラクトモデルは,リアルタイムモードでも高度な72Bモデル(Qwen2.5-VL-72B-インストラクト,LLaVA-Video-72B)を超えることができることがわかった。
一方, VideoMME や OVOBench などの人気ビデオ QA ベンチマークでは,7B/8B スケールの最先端結果が得られた。
この論文の全リソースはhttps://showlab.github.io/livecc.comで公開されている。
関連論文リスト
- SEVERE++: Evaluating Benchmark Sensitivity in Generalization of Video Representation Learning [78.44705665291741]
本稿では,現代ビデオの自己教師型モデルの包括的評価について述べる。
ドメインシフト、サンプル効率、アクションの粒度、タスクの多様性の4つの重要な下流因子の一般化に焦点を当てる。
我々の分析は、アーキテクチャの進歩にもかかわらず、トランスフォーマーベースのモデルは下流の条件に敏感であることを示している。
論文 参考訳(メタデータ) (2025-04-08T06:00:28Z) - VideoSAVi: Self-Aligned Video Language Models without Human Supervision [0.6854849895338531]
VideoSAViは自己学習パイプラインで、ビデオ-LLMが外部の監督なしにビデオコンテンツを推論できる。
VideoSAViはMVBench(74.0%)の最先端のパフォーマンスを達成し、大幅な改善を実現している。
我々のモデルに依存しないアプローチは計算的に効率的であり、32フレームしか必要としない。
論文 参考訳(メタデータ) (2024-12-01T00:33:05Z) - VideoLLM-online: Online Video Large Language Model for Streaming Video [27.073238234038826]
本稿では,ビデオストリーム内での時間的整合性,長コンテキスト性,リアルタイムな会話を可能にする,新しいLearning-In-Video-Streamフレームワークを提案する。
当社のフレームワークは,A100 GPU上で10FPS以上の5分間のビデオクリップでストリーミング対話をサポートする。
また、認識、キャプション、予測など、パブリックなオフラインビデオベンチマークで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2024-06-17T17:55:32Z) - ST-LLM: Large Language Models Are Effective Temporal Learners [58.79456373423189]
大規模言語モデル(LLM)は、テキストの理解と生成において印象的な能力を示した。
ビデオベースの対話システムでビデオを効果的にエンコードし、理解する方法は、まだ解決されていない。
LLM内部の時空間シーケンスをモデル化したビデオLLMベースラインST-LLMを提案する。
論文 参考訳(メタデータ) (2024-03-30T10:11:26Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - VindLU: A Recipe for Effective Video-and-Language Pretraining [83.49216853881595]
本稿では,VidLモデル設計において最も重要な要素を解明する実証的研究を行う。
これらの経験的洞察を用いて、有効なVidL事前学習のためのステップバイステップレシピVindLUを開発した。
提案手法を用いてトレーニングしたモデルは,VidLタスクにおける最先端結果と同等かそれ以上の精度で達成できる。
論文 参考訳(メタデータ) (2022-12-09T18:54:05Z) - LiteVL: Efficient Video-Language Learning with Enhanced Spatial-Temporal
Modeling [48.283659682112926]
本稿では,事前学習した画像言語モデルBLIPを,下流タスク上で直接ビデオテキストモデルに適応させるLiteVLを提案する。
また、テキスト上に埋め込まれた微細なビデオ埋め込み条件を適応的に重み付けする非パラメトリックプーリング機構を提案する。
論文 参考訳(メタデータ) (2022-10-21T13:03:49Z) - Multimodal Open-Vocabulary Video Classification via Pre-Trained Vision
and Language Models [67.31684040281465]
textbfMOVは,textbfMultimodal textbfOpen-textbfVocabularyビデオ分類の簡易かつ効果的な方法である。
MOVでは、ビデオ、光フロー、オーディオスペクトログラムを符号化するために、トレーニング済みのVLMのビジョンエンコーダを最小限の修正で直接使用する。
論文 参考訳(メタデータ) (2022-07-15T17:59:11Z) - Learning Spatiotemporal Features via Video and Text Pair Discrimination [30.64670449131973]
クロスモーダルペア(CPD)フレームワークは、ビデオとその関連テキスト間の相関をキャプチャする。
我々は、標準的なビデオデータセット(Kinetics-210k)と未処理のWebビデオデータセット(-300k)でCDDモデルをトレーニングし、その効果を実証する。
論文 参考訳(メタデータ) (2020-01-16T08:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。