論文の概要: Post-Training Quantization for Video Matting
- arxiv url: http://arxiv.org/abs/2506.10840v1
- Date: Thu, 12 Jun 2025 15:57:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.824993
- Title: Post-Training Quantization for Video Matting
- Title(参考訳): ビデオマッチングのためのトレーニング後の量子化
- Authors: Tianrui Zhu, Houyuan Chen, Ruihao Gong, Michele Magno, Haotong Qin, Kai Zhang,
- Abstract要約: ビデオマッティングは、映画制作やバーチャルリアリティーといった応用に不可欠である。
トレーニング後の量子化(PTQ)は、ビデオマッティングの初期段階にある。
本稿では,ビデオマッチングモデルに特化して設計された,新規で汎用的なPTQフレームワークを提案する。
- 参考スコア(独自算出の注目度): 20.558324038808664
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video matting is crucial for applications such as film production and virtual reality, yet deploying its computationally intensive models on resource-constrained devices presents challenges. Quantization is a key technique for model compression and acceleration. As an efficient approach, Post-Training Quantization (PTQ) is still in its nascent stages for video matting, facing significant hurdles in maintaining accuracy and temporal coherence. To address these challenges, this paper proposes a novel and general PTQ framework specifically designed for video matting models, marking, to the best of our knowledge, the first systematic attempt in this domain. Our contributions include: (1) A two-stage PTQ strategy that combines block-reconstruction-based optimization for fast, stable initial quantization and local dependency capture, followed by a global calibration of quantization parameters to minimize accuracy loss. (2) A Statistically-Driven Global Affine Calibration (GAC) method that enables the network to compensate for cumulative statistical distortions arising from factors such as neglected BN layer effects, even reducing the error of existing PTQ methods on video matting tasks up to 20%. (3) An Optical Flow Assistance (OFA) component that leverages temporal and semantic priors from frames to guide the PTQ process, enhancing the model's ability to distinguish moving foregrounds in complex scenes and ultimately achieving near full-precision performance even under ultra-low-bit quantization. Comprehensive quantitative and visual results show that our PTQ4VM achieves the state-of-the-art accuracy performance across different bit-widths compared to the existing quantization methods. We highlight that the 4-bit PTQ4VM even achieves performance close to the full-precision counterpart while enjoying 8x FLOP savings.
- Abstract(参考訳): ビデオマッティングは、映画制作やバーチャルリアリティーなどのアプリケーションには不可欠であるが、計算集約的なモデルをリソース制約のあるデバイスに展開することは、課題を提示する。
量子化はモデル圧縮と加速の重要な技術である。
効率的なアプローチとして、PTQ(Post-Training Quantization)はビデオマッティングの初期段階にあり、精度と時間的コヒーレンスを維持する上で大きなハードルに直面している。
これらの課題に対処するために,本研究では,この領域における最初の体系的試みである,ビデオマッチングモデル,マーキングのための,新規で汎用的なPTQフレームワークを提案する。
1) 高速で安定な初期量子化と局所的依存性キャプチャのためのブロック再構成に基づく最適化を併用した2段階のPTQ戦略, そして, 精度損失を最小限に抑えるための量子化パラメータのグローバルキャリブレーションを行う。
2) BN層効果の無視, 既存のPTQ手法の誤りを最大20%減らすことによる累積的統計的歪みをネットワークが補償できるGAC法について検討した。
(3) フレームからの時間的・意味的な先行情報を活用してPTQプロセスを導出する光学フロー支援(OFA)コンポーネントは,複雑な場面における移動前景の識別能力を高め,極低ビット量子化の下でもほぼ完全な性能を実現する。
我々のPTQ4VMは、既存の量子化法と比較して、異なるビット幅にわたる最先端の精度を実現していることを示す。
4ビットのPTQ4VMは8倍のFLOPセーブを楽しみながら、フル精度に近いパフォーマンスを実現している。
関連論文リスト
- APHQ-ViT: Post-Training Quantization with Average Perturbation Hessian Based Reconstruction for Vision Transformers [71.2294205496784]
平均摂動ヘシアン (APH) を用いた重要度推定に基づく新しいPTQ手法である textbfAPHQ-ViT を提案する。
本稿では,線形量子化器を用いたAPHQ-ViTが既存のPTQ法よりも3ビット,4ビットの差が大きいことを示す。
論文 参考訳(メタデータ) (2025-04-03T11:48:56Z) - PassionSR: Post-Training Quantization with Adaptive Scale in One-Step Diffusion based Image Super-Resolution [95.98801201266099]
拡散に基づく画像超解像(SR)モデルでは、複数のデノナイジングステップのコストで優れた性能を示す。
本稿では,一段階拡散(OSD)画像SR,PassionSRにおける適応スケールの学習後量子化手法を提案する。
我々のPassionSRは、画像SRの最近の先進的な低ビット量子化法に対して大きな利点がある。
論文 参考訳(メタデータ) (2024-11-26T04:49:42Z) - P4Q: Learning to Prompt for Quantization in Visual-language Models [38.87018242616165]
量子化のためのPrompt(P4Q)という,微調整と量子化のバランスをとる手法を提案する。
提案手法は,低ビット量子化による画像特徴とテキスト特徴とのギャップを効果的に低減することができる。
私たちの8ビットP4Qは理論上CLIP-ViT/B-32を4$times$で圧縮でき、Top-1の精度は66.94%である。
論文 参考訳(メタデータ) (2024-09-26T08:31:27Z) - EfficientDM: Efficient Quantization-Aware Fine-Tuning of Low-Bit Diffusion Models [21.17675493267517]
ポストトレーニング量子化(PTQ)と量子化学習(QAT)は、拡散モデルを圧縮・加速する2つの主要なアプローチである。
我々は、PTQのような効率でQATレベルの性能を実現するために、EfficientDMと呼ばれる低ビット拡散モデルのためのデータフリーかつパラメータ効率の微調整フレームワークを導入する。
提案手法は, PTQに基づく拡散モデルにおいて, 同様の時間とデータ効率を保ちながら, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-10-05T02:51:53Z) - Towards Accurate Post-Training Quantization for Vision Transformer [48.779346466374406]
既存のトレーニング後の量子化手法は依然として深刻な性能低下を引き起こしている。
APQ-ViTは、既存のトレーニング後の量子化手法を証明マージンによって超越している。
論文 参考訳(メタデータ) (2023-03-25T03:05:26Z) - Fully Quantized Image Super-Resolution Networks [81.75002888152159]
効率と精度を両立させるためのフル量子化画像超解像フレームワーク(FQSR)を提案する。
我々は、SRResNet、SRGAN、EDSRを含む複数の主流超解像アーキテクチャに量子化スキームを適用した。
低ビット量子化を用いたFQSRは、5つのベンチマークデータセットの完全精度と比較すると、パー性能で実現できる。
論文 参考訳(メタデータ) (2020-11-29T03:53:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。