論文の概要: BiVM: Accurate Binarized Neural Network for Efficient Video Matting
- arxiv url: http://arxiv.org/abs/2507.04456v1
- Date: Sun, 06 Jul 2025 16:32:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:35.191949
- Title: BiVM: Accurate Binarized Neural Network for Efficient Video Matting
- Title(参考訳): BiVM: 効率的なビデオマッチングのための正確なバイナリニューラルネットワーク
- Authors: Haotong Qin, Xianglong Liu, Xudong Ma, Lei Ke, Yulun Zhang, Jie Luo, Michele Magno,
- Abstract要約: リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算制限を被る。
ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。
BiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオマッティングネットワークをかなり上回っている。
- 参考スコア(独自算出の注目度): 56.000594826508504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks for real-time video matting suffer significant computational limitations on edge devices, hindering their adoption in widespread applications such as online conferences and short-form video production. Binarization emerges as one of the most common compression approaches with compact 1-bit parameters and efficient bitwise operations. However, accuracy and efficiency limitations exist in the binarized video matting network due to its degenerated encoder and redundant decoder. Following a theoretical analysis based on the information bottleneck principle, the limitations are mainly caused by the degradation of prediction-relevant information in the intermediate features and the redundant computation in prediction-irrelevant areas. We present BiVM, an accurate and resource-efficient Binarized neural network for Video Matting. First, we present a series of binarized computation structures with elastic shortcuts and evolvable topologies, enabling the constructed encoder backbone to extract high-quality representation from input videos for accurate prediction. Second, we sparse the intermediate feature of the binarized decoder by masking homogeneous parts, allowing the decoder to focus on representation with diverse details while alleviating the computation burden for efficient inference. Furthermore, we construct a localized binarization-aware mimicking framework with the information-guided strategy, prompting matting-related representation in full-precision counterparts to be accurately and fully utilized. Comprehensive experiments show that the proposed BiVM surpasses alternative binarized video matting networks, including state-of-the-art (SOTA) binarization methods, by a substantial margin. Moreover, our BiVM achieves significant savings of 14.3x and 21.6x in computation and storage costs, respectively. We also evaluate BiVM on ARM CPU hardware.
- Abstract(参考訳): リアルタイムビデオマッチングのためのディープニューラルネットワークは、エッジデバイスに重大な計算上の制限を被り、オンライン会議やショートフォームビデオ制作のような広範なアプリケーションに採用を妨げている。
バイナリ化は、コンパクトな1ビットパラメータと効率的なビットワイズ演算を持つ最も一般的な圧縮手法の1つとして現れる。
しかし、デジェクトエンコーダと冗長デコーダにより、二項化ビデオマッチングネットワークには精度と効率の限界が存在する。
情報ボトルネック原理に基づく理論的解析の結果,中間特徴量における予測関連情報の劣化と,予測関連領域における冗長な計算が主な原因となっている。
ビデオマッティングのための正確でリソース効率のよいバイナリニューラルネットワークであるBiVMを提案する。
まず、弾性的ショートカットと展開可能なトポロジを備えた二項化計算構造を示し、構築されたエンコーダのバックボーンにより、入力ビデオから高品質な表現を抽出し、正確な予測を行う。
第二に、二項化デコーダの中間的特徴を均質な部分をマスキングすることで分離し、デコーダは効率的な推論のための計算負担を軽減しつつ、様々な詳細で表現することに集中することができる。
さらに,情報誘導戦略を取り入れた局所的二項化対応模倣フレームワークを構築し,精度の高い行列表現を高精度かつ十分に活用する。
包括的実験により、提案したBiVMは、最先端(SOTA)バイナライゼーション手法を含む、代替のバイナライズされたビデオ・マッティング・ネットワークをかなり上回っていることが示された。
さらに、私たちのBiVMは、それぞれ計算コストとストレージコストの14.3倍と21.6倍の大幅な削減を実現しています。
ARM CPUハードウェア上でのBiVMの評価も行う。
関連論文リスト
- BiDense: Binarization for Dense Prediction [62.70804353158387]
BiDenseは、効率よく正確な密度予測タスクのために設計された一般化されたバイナリニューラルネットワーク(BNN)である。
BiDenseは2つの重要なテクニックを取り入れている: 分散適応バイナリー (DAB) とチャネル適応完全精度バイパス (CFB) である。
論文 参考訳(メタデータ) (2024-11-15T16:46:04Z) - PLUM: Improving Inference Efficiency By Leveraging Repetition-Sparsity Trade-Off [2.326200609038491]
量子化とスパシティは、ハードウェア・ソフトウェア・インタフェースにおけるテンソル内の繰り返しとスパシティに変換する重要な技術である。
本稿では,反復スパーシティートレードオフの概念を導入し,推論時の計算効率を説明する。
本稿では、推論システムと量子化を統合し、繰り返しスパーシティトレードオフを利用する統一型協調設計フレームワークPLUMを提案する。
論文 参考訳(メタデータ) (2023-12-04T02:33:53Z) - BiBench: Benchmarking and Analyzing Network Binarization [72.59760752906757]
ネットワークバイナライゼーションは、異常な計算とメモリ節約を提供する最も有望な圧縮手法の1つとして出現する。
精度劣化や効率制限といった双項化の一般的な課題は、その属性が完全には理解されていないことを示唆している。
ネットワークバイナライゼーションのための深度解析を用いた厳密に設計されたベンチマークであるBiBenchを提案する。
論文 参考訳(メタデータ) (2023-01-26T17:17:16Z) - BiFSMNv2: Pushing Binary Neural Networks for Keyword Spotting to
Real-Network Performance [54.214426436283134]
Deep-FSMNのようなディープニューラルネットワークはキーワードスポッティング(KWS)アプリケーションのために広く研究されている。
我々は、KWS、すなわちBiFSMNv2のための強力で効率的なバイナリニューラルネットワークを提示し、それを実ネットワーク精度のパフォーマンスにプッシュする。
小型アーキテクチャと最適化されたハードウェアカーネルの利点により、BiFSMNv2は25.1倍のスピードアップと20.2倍のストレージ節約を実現できる。
論文 参考訳(メタデータ) (2022-11-13T18:31:45Z) - BiFSMN: Binary Neural Network for Keyword Spotting [47.46397208920726]
BiFSMNは、KWSのための正確かつ極効率のバイナリニューラルネットワークである。
実世界のエッジハードウェアにおいて,BiFSMNは22.3倍の高速化と15.5倍のストレージ節約を実現可能であることを示す。
論文 参考訳(メタデータ) (2022-02-14T05:16:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。