論文の概要: CoPE-VideoLM: Codec Primitives For Efficient Video Language Models
- arxiv url: http://arxiv.org/abs/2602.13191v1
- Date: Fri, 13 Feb 2026 18:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:54.085984
- Title: CoPE-VideoLM: Codec Primitives For Efficient Video Language Models
- Title(参考訳): CoPE-VideoLM: 効率的なビデオ言語モデルのためのコーデックプリミティブ
- Authors: Sayan Deb Sarkar, Rémi Pautrat, Ondrej Miksik, Marc Pollefeys, Iro Armeni, Mahdi Rad, Mihai Dusmanu,
- Abstract要約: ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。
現在の方法では、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるサンプリングを使用する。
多くのフレームに対して高価なフルイメージエンコーディングを必要とせず、ビデオ冗長性と疎結合性を符号化するビデオプリミティブを活用することを提案する。
- 参考スコア(独自算出の注目度): 56.76440182038839
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video Language Models (VideoLMs) empower AI systems to understand temporal dynamics in videos. To fit to the maximum context window constraint, current methods use keyframe sampling which can miss both macro-level events and micro-level details due to the sparse temporal coverage. Furthermore, processing full images and their tokens for each frame incurs substantial computational overhead. To address these limitations, we propose to leverage video codec primitives (specifically motion vectors and residuals) which natively encode video redundancy and sparsity without requiring expensive full-image encoding for most frames. To this end, we introduce lightweight transformer-based encoders that aggregate codec primitives and align their representations with image encoder embeddings through a pre-training strategy that accelerates convergence during end-to-end fine-tuning. Our approach reduces the time-to-first-token by up to $86\%$ and token usage by up to $93\%$ compared to standard VideoLMs. Moreover, by varying the keyframe and codec primitive densities we are able to maintain or exceed performance on $14$ diverse video understanding benchmarks spanning general question answering, temporal reasoning, long-form understanding, and spatial scene understanding.
- Abstract(参考訳): ビデオ言語モデル(Video Language Models, ビデオ言語モデル)は、ビデオの時間的ダイナミクスを理解するためのAIシステムである。
最大コンテキストウィンドウ制約に適合するため、現在のメソッドでは、マクロレベルのイベントとマイクロレベルの詳細の両方を見逃すことができるキーフレームサンプリングを使用している。
さらに、フレームごとにフルイメージとそのトークンを処理すると、かなりの計算オーバーヘッドが発生する。
これらの制約に対処するために、多くのフレームに対して高価なフルイメージ符号化を必要とせず、ビデオの冗長性と空間性をネイティブに符号化するビデオコーデックプリミティブ(特にモーションベクトルと残差)を活用することを提案する。
そこで本研究では,コーデックプリミティブを集約した軽量トランスフォーマーベースのエンコーダを導入し,その表現をイメージエンコーダの埋め込みと整合させる。
当社のアプローチでは、標準の VideoLM と比較して、タイム・ツー・ファーストのトークンを最大8,6\%、トークンの使用を最大9,3\%削減しています。
さらに、キーフレームとコーデックのプリミティブ密度を変化させることで、一般的な質問応答、時間的推論、長文理解、空間的シーン理解にまたがる14ドルの多様なビデオ理解ベンチマークで、パフォーマンスを維持または超えることができる。
関連論文リスト
- Multimodal Long Video Modeling Based on Temporal Dynamic Context [13.979661295432964]
時間的動的コンテキスト(TDC)と呼ばれるフレーム間の時間的関係を利用した動的長ビデオ符号化手法を提案する。
ビデオはフレーム間の類似性に基づいて意味的に一貫したシーンに分割し、各フレームを視覚音響エンコーダを使用してトークンにエンコードする。
極端に長いビデオを扱うために,複数のビデオセグメントから回答を段階的に抽出する学習自由連鎖戦略を提案する。
論文 参考訳(メタデータ) (2025-04-14T17:34:06Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。