論文の概要: ResQ: Residual Quantization for Video Perception
- arxiv url: http://arxiv.org/abs/2308.09511v1
- Date: Fri, 18 Aug 2023 12:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-21 13:17:06.740283
- Title: ResQ: Residual Quantization for Video Perception
- Title(参考訳): ResQ: ビデオ知覚のための残留量子化
- Authors: Davide Abati, Haitam Ben Yahia, Markus Nagel, Amirhossein Habibian
- Abstract要約: 本稿では,Residual Quantization(Residual Quantization)と呼ばれるビデオネットワークのための新しい量子化手法を提案する。
ビデオの変化量に比例してビット幅を動的に調整するために、我々のモデルを拡張します。
- 参考スコア(独自算出の注目度): 18.491197847596283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper accelerates video perception, such as semantic segmentation and
human pose estimation, by levering cross-frame redundancies. Unlike the
existing approaches, which avoid redundant computations by warping the past
features using optical-flow or by performing sparse convolutions on frame
differences, we approach the problem from a new perspective: low-bit
quantization. We observe that residuals, as the difference in network
activations between two neighboring frames, exhibit properties that make them
highly quantizable. Based on this observation, we propose a novel quantization
scheme for video networks coined as Residual Quantization. ResQ extends the
standard, frame-by-frame, quantization scheme by incorporating temporal
dependencies that lead to better performance in terms of accuracy vs.
bit-width. Furthermore, we extend our model to dynamically adjust the bit-width
proportional to the amount of changes in the video. We demonstrate the
superiority of our model, against the standard quantization and existing
efficient video perception models, using various architectures on semantic
segmentation and human pose estimation benchmarks.
- Abstract(参考訳): 本稿では,フレーム間冗長性を浮き彫りにすることで,意味セグメンテーションや人間のポーズ推定などの映像知覚を高速化する。
光フローを用いた過去の特徴のワープやフレーム差分によるスパース畳み込みによって冗長な計算を回避している既存の手法とは異なり、我々は新しい視点である低ビット量子化法にアプローチする。
2つの隣接するフレーム間のネットワークアクティベーションの違いとして、残余は高い定量化が可能な特性を示す。
そこで本研究では,Residual Quantizationと呼ばれるビデオネットワークの量子化手法を提案する。
ResQは、フレーム単位での標準的な量子化スキームを拡張し、時間依存性を組み込むことで、ビット幅よりも精度が向上する。
さらに,映像中の変化量に比例するビット幅を動的に調整するためにモデルを拡張した。
我々は,セマンティックセグメンテーションと人間のポーズ推定ベンチマークの様々なアーキテクチャを用いて,標準量子化や既存の効率的な映像知覚モデルに対して,モデルの優越性を示す。
関連論文リスト
- TCAQ-DM: Timestep-Channel Adaptive Quantization for Diffusion Models [49.65286242048452]
拡散モデル(TCAQ-DM)のためのタイムステップ・チャネル適応量子化法を提案する。
提案手法は,ほとんどの場合,最先端の手法よりも優れている。
論文 参考訳(メタデータ) (2024-12-21T16:57:54Z) - QVD: Post-training Quantization for Video Diffusion Models [33.13078954859106]
ポストトレーニング量子化(PTQ)は、メモリフットプリントの削減と計算効率の向上に有効な手法である。
本稿では,QVDと呼ばれるビデオ拡散モデルに適した最初のPTQ戦略を紹介する。
我々は、W8A8のほぼロスレス性能劣化を達成し、FVDの205.12倍の性能向上を実現した。
論文 参考訳(メタデータ) (2024-07-16T10:47:27Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Distortion-Aware Network Pruning and Feature Reuse for Real-time Video
Segmentation [49.17930380106643]
本稿では,リアルタイム視覚タスクのスキップ接続によるアーキテクチャの高速化を目的とした新しいフレームワークを提案する。
具体的には、各フレームの到着時に、前のフレームから特徴を変換し、特定の空間的ビンで再利用する。
次に、現在のフレームの領域におけるバックボーンネットワークの部分計算を行い、現在のフレームと前のフレームの時間差をキャプチャする。
論文 参考訳(メタデータ) (2022-06-20T07:20:02Z) - PeQuENet: Perceptual Quality Enhancement of Compressed Video with
Adaptation- and Attention-based Network [27.375830262287163]
本稿では,圧縮ビデオの知覚品質を高めるために,GAN(Generative Adversarial Network)フレームワークを提案する。
我々のフレームワークは、単一のモデルにおける異なる量子化パラメータ(QP)への注意と適応を含む。
実験により,提案したPeQuENetの圧縮圧縮画質向上アルゴリズムと比較して優れた性能を示した。
論文 参考訳(メタデータ) (2022-06-16T02:49:28Z) - Representation Recycling for Streaming Video Analysis [19.068248496174903]
StreamDEQは、最小フレーム当たりの計算量でビデオのフレームワイズ表現を推論することを目的としている。
StreamDEQは、数フレームの時間でほぼ最適表現を復元でき、ビデオ期間を通して最新の表現を維持できることを示す。
論文 参考訳(メタデータ) (2022-04-28T13:35:14Z) - Video Frame Interpolation Transformer [86.20646863821908]
本稿では,トランスフォーマーをベースとした動画フレームワークを提案し,コンテンツ認識集約の重み付けと,自己注意操作による長距離依存を考慮した。
グローバルな自己注意の計算コストが高くなるのを避けるため、ビデオに局所的注意の概念を導入する。
さらに,トランスフォーマーの可能性を完全に実現するためのマルチスケール・フレーム・スキームを開発した。
論文 参考訳(メタデータ) (2021-11-27T05:35:10Z) - Insights from Generative Modeling for Neural Video Compression [31.59496634465347]
本稿では,深部自己回帰・潜時可変モデリングのレンズを用いたニューラルビデオ符号化アルゴリズムを提案する。
本稿では,高解像度映像に対して最先端の映像圧縮性能を実現するアーキテクチャを提案する。
さらに、生成的モデリングの観点から、ニューラルビデオ符号化の分野を前進させることができることを示す。
論文 参考訳(メタデータ) (2021-07-28T02:19:39Z) - A Deep-Unfolded Reference-Based RPCA Network For Video
Foreground-Background Separation [86.35434065681925]
本稿では,ロバスト主成分分析(RPCA)問題に対するディープアンフォールディングに基づくネットワーク設計を提案する。
既存の設計とは異なり,本手法は連続するビデオフレームのスパース表現間の時間的相関をモデル化することに焦点を当てている。
移動MNISTデータセットを用いた実験により、提案したネットワークは、ビデオフォアグラウンドとバックグラウンドの分離作業において、最近提案された最先端のRPCAネットワークより優れていることが示された。
論文 参考訳(メタデータ) (2020-10-02T11:40:09Z) - Capturing Video Frame Rate Variations via Entropic Differencing [63.749184706461826]
一般化ガウス分布モデルに基づく新しい統計エントロピー差分法を提案する。
提案手法は,最近提案されたLIVE-YT-HFRデータベースにおいて,主観的スコアと非常によく相関する。
論文 参考訳(メタデータ) (2020-06-19T22:16:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。