論文の概要: CodecFlow: Codec-Guided End-to-End Optimization for Streaming Video Analytics
- arxiv url: http://arxiv.org/abs/2604.06036v2
- Date: Wed, 08 Apr 2026 07:19:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-09 14:06:05.171206
- Title: CodecFlow: Codec-Guided End-to-End Optimization for Streaming Video Analytics
- Title(参考訳): CodecFlow: Codec-Guided End-to-End Optimization for Streaming Video Analytics
- Authors: Yulin Zou, Yan Chen, Wenyan Chen, JooYoung Park, Shivaraman Nitin, Luo Tao, Francisco Romero, Dmitrii Ustiugov,
- Abstract要約: CodecFlowは、ビデオコーデックが圧縮の副産物として各ストリームの時間的および空間的構造を抽出しているというキー観察に基づいて構築されたストリーミングビデオ分析システムである。
実験の結果、CodecFlowは最大3倍のスループット向上と、最先端のベースラインよりも最大87%のGPU計算削減を実現している。
- 参考スコア(独自算出の注目度): 4.835489391255295
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video streaming analytics is a crucial workload for vision-language model serving, but the high cost of multimodal inference limits scalability. Prior systems reduce inference cost by exploiting temporal and spatial redundancy in video streams, but they target either the vision transformer (ViT) or the LLM with a limited view, leaving end-to-end opportunities untapped. Moreover, existing methods incur significant overhead to identify redundancy, either through offline profiling and training or costly online computation, making them ill-suited for dynamic real-time streams. We present CodecFlow, a codec-guided streaming video analytics system built on a key observation that video codecs already extract the temporal and spatial structure of each stream as a byproduct of compression. CodecFlow treats this codec metadata as a low-cost runtime signal to unify optimization across video decoding, visual processing, and LLM prefilling, with transmission reduction as an inherent benefit of operating directly on compressed bitstreams. This drives codec-guided patch pruning before ViT encoding and selective key-value cache refresh during LLM prefilling, both of which are fully online and do not require offline training. Experiments show that CodecFlow achieves up to 3x throughput improvement and up to 87% GPU compute reduction over state-of-the-art baselines, while maintaining competitive accuracy with only 0-8% F1 drop.
- Abstract(参考訳): ビデオストリーミング分析は、視覚言語モデル提供にとって重要な作業負荷であるが、マルチモーダル推論のコストが高いためスケーラビリティが制限される。
従来のシステムは、ビデオストリームの時間的および空間的冗長性を利用して推論コストを削減するが、視覚変換器(ViT)またはLLMを限定的な視点でターゲットとし、エンドツーエンドの機会を未然に残す。
さらに、既存の手法では、オフラインのプロファイリングとトレーニング、あるいはコストのかかるオンライン計算によって、冗長性を特定するためにかなりのオーバーヘッドが生じるため、動的リアルタイムストリームには適さない。
ビデオコーデックが圧縮の副産物として各ストリームの時間的・空間的構造を抽出しているというキー観測に基づいて構築されたコーデック誘導型ストリーミングビデオ分析システムであるCodecFlowについて述べる。
CodecFlowは、このコーデックメタデータを低コストのランタイム信号として扱い、ビデオデコーディング、ビジュアル処理、LLMプリフィルの最適化を統一する。
これにより、ViTエンコーディング前のコーデック誘導パッチプルーニングと、LLMプリフィル中の選択キー値キャッシュリフレッシュが実行され、どちらも完全にオンラインであり、オフライントレーニングを必要としない。
実験によると、CodecFlowは最先端のベースラインよりも最大3倍のスループット向上と最大87%のGPU計算削減を実現し、競争精度は0-8%のF1ドロップで維持されている。
関連論文リスト
- V-Rex: Real-Time Streaming Video LLM Acceleration via Dynamic KV Cache Retrieval [1.677021230191566]
ビデオ大言語モデル(LLM)のストリーミングは、ビデオキャプション、質問応答、会話エージェント、拡張現実といったリアルタイムなマルチモーダルタスクにますます利用されている。
これらのモデルは、キー値(KV)キャッシュが連続的なストリーミングビデオ入力によって大幅に増大するため、基本的なメモリと計算上の課題に直面している。
我々は,ストリーミングビデオLLM推論におけるアルゴリズム的ボトルネックとハードウェア的ボトルネックに対処する,初のソフトウェアとハードウェアの共同設計アクセラレータであるV-Rexを提案する。
論文 参考訳(メタデータ) (2025-12-13T11:02:04Z) - FocalCodec-Stream: Streaming Low-Bitrate Speech Coding via Causal Distillation [27.32235541083431]
FocalCodec-Streamは、音声を1つのバイナリコードブックに0.55から0.80kbpsで圧縮し、理論的な遅延は80msである。
実験によると、FocalCodec-Streamは既存のストリーム可能なコーデックを同等の性能で上回っている。
論文 参考訳(メタデータ) (2025-09-19T17:57:13Z) - Plug-and-Play Versatile Compressed Video Enhancement [57.62582951699999]
ビデオ圧縮はファイルのサイズを効果的に削減し、リアルタイムのクラウドコンピューティングを可能にする。
しかし、それは視覚的品質の犠牲となり、下流の視覚モデルの堅牢性に挑戦する。
本稿では,異なる圧縮条件下で動画を適応的に拡張する多言語対応拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-21T18:39:31Z) - VideoScan: Enabling Efficient Streaming Video Understanding via Frame-level Semantic Carriers [23.541896057977745]
VideoScanは、リアルタイムビデオインタラクションのための効率的な視覚言語モデル(VLM)推論フレームワークである。
VideoScanでは、各フレームを表すために単一のセマンティックキャリアトークンを使用している。
論文 参考訳(メタデータ) (2025-03-12T13:30:40Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - A Coding Framework and Benchmark towards Low-Bitrate Video Understanding [63.05385140193666]
我々は,従来のコーデックとニューラルネットワーク(NN)の両方を活用する,従来型ニューラル混合符号化フレームワークを提案する。
このフレームワークは、動画の移動効率の良いセマンティック表現を確実に保持することで最適化される。
8つのデータセットに3つのダウンストリームタスクを備えた低ビットレートビデオ理解ベンチマークを構築し、このアプローチの顕著な優位性を実証した。
論文 参考訳(メタデータ) (2022-02-06T16:29:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。