論文の概要: PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement
- arxiv url: http://arxiv.org/abs/2505.12266v2
- Date: Sat, 24 May 2025 07:31:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 14:32:55.052602
- Title: PMQ-VE: Progressive Multi-Frame Quantization for Video Enhancement
- Title(参考訳): PMQ-VE:映像強調のためのプログレッシブマルチフレーム量子化
- Authors: ZhanFeng Feng, Long Peng, Xin Di, Yong Guo, Wenbo Li, Yulun Zhang, Renjing Pei, Yang Wang, Yang Cao, Zheng-Jun Zha,
- Abstract要約: 多フレームビデオ強調タスクは、ビデオシーケンスの空間的および時間的解像度と品質を改善することを目的としている。
映像強調のためのプログレッシブマルチフレーム量子化(PMQ-VE)を提案する。
このフレームワークは、バックトラックベースマルチフレーム量子化(BMFQ)とプログレッシブマルチ教師蒸留(PMTD)という、粗大な2段階のプロセスを備えている。
- 参考スコア(独自算出の注目度): 83.89668902758243
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multi-frame video enhancement tasks aim to improve the spatial and temporal resolution and quality of video sequences by leveraging temporal information from multiple frames, which are widely used in streaming video processing, surveillance, and generation. Although numerous Transformer-based enhancement methods have achieved impressive performance, their computational and memory demands hinder deployment on edge devices. Quantization offers a practical solution by reducing the bit-width of weights and activations to improve efficiency. However, directly applying existing quantization methods to video enhancement tasks often leads to significant performance degradation and loss of fine details. This stems from two limitations: (a) inability to allocate varying representational capacity across frames, which results in suboptimal dynamic range adaptation; (b) over-reliance on full-precision teachers, which limits the learning of low-bit student models. To tackle these challenges, we propose a novel quantization method for video enhancement: Progressive Multi-Frame Quantization for Video Enhancement (PMQ-VE). This framework features a coarse-to-fine two-stage process: Backtracking-based Multi-Frame Quantization (BMFQ) and Progressive Multi-Teacher Distillation (PMTD). BMFQ utilizes a percentile-based initialization and iterative search with pruning and backtracking for robust clipping bounds. PMTD employs a progressive distillation strategy with both full-precision and multiple high-bit (INT) teachers to enhance low-bit models' capacity and quality. Extensive experiments demonstrate that our method outperforms existing approaches, achieving state-of-the-art performance across multiple tasks and benchmarks.The code will be made publicly available at: https://github.com/xiaoBIGfeng/PMQ-VE.
- Abstract(参考訳): マルチフレーム映像強調タスクは、ストリーミングビデオ処理、監視、生成に広く用いられている複数のフレームからの時間情報を活用することにより、映像シーケンスの空間的・時間的解像度と品質を改善することを目的としている。
多数のTransformerベースの拡張手法は優れた性能を達成しているが、その計算とメモリの要求はエッジデバイスへの展開を妨げる。
量子化は、ウェイトとアクティベーションのビット幅を減らして効率を向上させることで、実用的なソリューションを提供する。
しかし、既存の量子化法を直接ビデオエンハンスメントタスクに適用すると、しばしば性能が著しく低下し、細部が失われる。
これは2つの制限に起因している。
(a) フレーム間で異なる表現能力の割り当てができず、その結果、最適範囲以下の動的範囲が適応する。
b) 完全精度の教師に対する過度な信頼感は,低ビット学生モデルの学習を制限している。
これらの課題に対処するために,PMQ-VE(Progressive Multi-Frame Quantization for Video Enhancement)という,ビデオ拡張のための新しい量子化手法を提案する。
このフレームワークは、バックトラックベースのMulti-Frame Quantization (BMFQ)とProgressive Multi-Teacher Distillation (PMTD)という粗い2段階のプロセスを備えている。
BMFQはパーセンタイルベースの初期化と再帰探索とプルーニングとバックトラックによる堅牢なクリッピング境界の探索を利用する。
PMTDは、低ビットモデルの能力と品質を高めるために、完全精度と複数の高ビット(INT)教師の双方で進歩的な蒸留戦略を採用している。
大規模な実験により、我々のメソッドは既存のアプローチよりも優れており、複数のタスクやベンチマークで最先端のパフォーマンスを実現しています。
関連論文リスト
- DiVE: Efficient Multi-View Driving Scenes Generation Based on Video Diffusion Transformer [56.98400572837792]
DiVEは高忠実で、時間的コヒーレントで、相互に一貫したマルチビュービデオを生成する。
これらの革新は総じて、最小品質の劣化を伴う2.62倍のスピードアップを達成する。
論文 参考訳(メタデータ) (2025-04-28T09:20:50Z) - Token-Efficient Long Video Understanding for Multimodal LLMs [101.70681093383365]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - VidTok: A Versatile and Open-Source Video Tokenizer [24.018360305535307]
VidTokは、連続したトークン化と離散的なトークン化の両方で最先端のパフォーマンスを提供する、汎用的なビデオトークン化ツールである。
これらの進歩を統合することで、VidTokは既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-12-17T16:27:11Z) - Free Video-LLM: Prompt-guided Visual Perception for Efficient Training-free Video LLMs [56.040198387038025]
トレーニング不要ビデオLLMの効率的な推論のための新しいプロンプト誘導視覚認識フレームワーク(Free Video-LLM)を提案する。
提案手法は,複数のビデオ質問応答ベンチマークにおいて高い性能を維持しながら,視覚トークンの数を効果的に削減する。
論文 参考訳(メタデータ) (2024-10-14T12:35:12Z) - QVD: Post-training Quantization for Video Diffusion Models [33.13078954859106]
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。
我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-16T10:47:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。