論文の概要: Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14454v1
- Date: Tue, 20 May 2025 14:52:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.437273
- Title: Video Compression Commander: Plug-and-Play Inference Acceleration for Video Large Language Models
- Title(参考訳): ビデオ圧縮コマンド:ビデオ大言語モデルのためのプラグアンドプレイ推論高速化
- Authors: Xuyang Liu, Yiyu Wang, Junpeng Ma, Linfeng Zhang,
- Abstract要約: ビデオ大言語モデル(VideoLLM)は、ビデオ理解において優れているが、効率の課題に直面している。
プラグアンドプレイ型推論アクセラレーションフレームワーク「ビデオ圧縮コマンド」(VidCom2)を提案する。
各フレームの特異性を定量化することにより、VidCom2はフレーム間の圧縮強度を適応的に調整する。
- 参考スコア(独自算出の注目度): 11.378836862764278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video large language models (VideoLLM) excel at video understanding, but face efficiency challenges due to the quadratic complexity of abundant visual tokens. Our systematic analysis of token compression methods for VideoLLMs reveals two critical issues: (i) overlooking distinctive visual signals across frames, leading to information loss; (ii) suffering from implementation constraints, causing incompatibility with modern architectures or efficient operators. To address these challenges, we distill three design principles for VideoLLM token compression and propose a plug-and-play inference acceleration framework "Video Compression Commander" (VidCom2). By quantifying each frame's uniqueness, VidCom2 adaptively adjusts compression intensity across frames, effectively preserving essential information while reducing redundancy in video sequences. Extensive experiments across various VideoLLMs and benchmarks demonstrate the superior performance and efficiency of our VidCom2. With only 25% visual tokens, VidCom2 achieves 99.6% of the original performance on LLaVA-OV while reducing 70.8% of the LLM generation latency. Notably, our Frame Compression Adjustment strategy is compatible with other token compression methods to further improve their performance. Our code is available at https://github.com/xuyang-liu16/VidCom2.
- Abstract(参考訳): ビデオ大言語モデル(VideoLLM)は、ビデオ理解において優れているが、豊富な視覚トークンの二次的複雑さのため、効率上の課題に直面している。
ビデオLLMにおけるトークン圧縮手法の体系的解析は,2つの重要な問題を明らかにしている。
(i)フレームにまたがる独特の視覚信号を見渡すことにより、情報損失
(II) 実装上の制約に悩まされ、近代的なアーキテクチャや効率的な演算子との互換性が低下する。
これらの課題に対処するため,ビデオLLMトークン圧縮のための3つの設計原則を抽出し,プラグイン・アンド・プレイ・推論・アクセラレーション・フレームワーク "Video Compression Commander" (VidCom2) を提案する。
各フレームの特異性を定量化することにより、VidCom2はフレーム間の圧縮強度を適応的に調整し、ビデオシーケンスの冗長性を低減しつつ、必須情報を効果的に保存する。
さまざまなVideoLLMとベンチマークにわたる大規模な実験は、VidCom2の優れたパフォーマンスと効率を実証しています。
25%のビジュアルトークンで、VidCom2はLLaVA-OVでの最初のパフォーマンスの99.6%を達成し、LLM生成遅延の70.8%を削減した。
特に、Frame Compression Adjustment戦略は、他のトークン圧縮手法と互換性があり、パフォーマンスをさらに向上します。
私たちのコードはhttps://github.com/xuyang-liu16/VidCom2.comから入手可能です。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - VidCompress: Memory-Enhanced Temporal Compression for Video Understanding in Large Language Models [25.668485023831874]
VidCompressは、メモリ拡張時間圧縮を備えた新しいビデオLLMである。
複雑な時間空間関係を効率的にモデル化し、既存のビデオLLMを著しく上回る。
論文 参考訳(メタデータ) (2024-10-15T09:07:25Z) - Video-XL: Extra-Long Vision Language Model for Hour-Scale Video Understanding [25.61734041983714]
Video-XLはMLLM固有のキー値スカラー化能力を活用して視覚入力を凝縮する新しい手法である。
ビデオXLの有効性は3つの側面から検証される。第一に、より優れた長ビデオ理解能力を実現し、同等の大きさの最先端モデルよりも優れる。
論文 参考訳(メタデータ) (2024-09-22T15:13:31Z) - Accelerating Learned Video Compression via Low-Resolution Representation Learning [18.399027308582596]
低解像度表現学習に焦点を当てた学習ビデオ圧縮のための効率最適化フレームワークを提案する。
提案手法は,H.266参照ソフトウェアVTMの低遅延P構成と同等の性能を実現する。
論文 参考訳(メタデータ) (2024-07-23T12:02:57Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - COMISR: Compression-Informed Video Super-Resolution [76.94152284740858]
ウェブやモバイルデバイスのほとんどのビデオは圧縮され、帯域幅が制限されると圧縮は厳しい。
圧縮によるアーティファクトを導入せずに高解像度コンテンツを復元する圧縮インフォームドビデオ超解像モデルを提案する。
論文 参考訳(メタデータ) (2021-05-04T01:24:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。