論文の概要: Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens
- arxiv url: http://arxiv.org/abs/2410.08485v1
- Date: Fri, 11 Oct 2024 03:24:21 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 23:34:54.109134
- Title: Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens
- Title(参考訳): GFVCを超えて - 適応的なビジュアルトークンを備えたプログレッシブな顔ビデオ圧縮フレームワーク
- Authors: Bolin Chen, Shanzhi Yin, Zihan Zhang, Jie Chen, Ru-Ling Liao, Lingyu Zhu, Shiqi Wang, Yan Ye,
- Abstract要約: 本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
- 参考スコア(独自算出の注目度): 28.03183316628635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, deep generative models have greatly advanced the progress of face video coding towards promising rate-distortion performance and diverse application functionalities. Beyond traditional hybrid video coding paradigms, Generative Face Video Compression (GFVC) relying on the strong capabilities of deep generative models and the philosophy of early Model-Based Coding (MBC) can facilitate the compact representation and realistic reconstruction of visual face signal, thus achieving ultra-low bitrate face video communication. However, these GFVC algorithms are sometimes faced with unstable reconstruction quality and limited bitrate ranges. To address these problems, this paper proposes a novel Progressive Face Video Compression framework, namely PFVC, that utilizes adaptive visual tokens to realize exceptional trade-offs between reconstruction robustness and bandwidth intelligence. In particular, the encoder of the proposed PFVC projects the high-dimensional face signal into adaptive visual tokens in a progressive manner, whilst the decoder can further reconstruct these adaptive visual tokens for motion estimation and signal synthesis with different granularity levels. Experimental results demonstrate that the proposed PFVC framework can achieve better coding flexibility and superior rate-distortion performance in comparison with the latest Versatile Video Coding (VVC) codec and the state-of-the-art GFVC algorithms. The project page can be found at https://github.com/Berlin0610/PFVC.
- Abstract(参考訳): 近年、深層生成モデルにより、将来性のある速度歪み性能と多種多様なアプリケーション機能に向けて、顔映像符号化の進歩が著しく進んでいる。
従来のハイブリッドビデオ符号化のパラダイムを超えて、GFVC(Generative Face Video Compression)は、深層生成モデルの強力な能力と初期のモデルベース符号化(MBC)の哲学を頼りに、視覚的顔信号のコンパクトな表現と現実的な再構築を容易にし、超低ビットレートの顔ビデオ通信を実現する。
しかし、これらのGFVCアルゴリズムは、不安定な再構成品質と限られたビットレート範囲に直面することがある。
これらの問題に対処するために, 適応型視覚トークンを用いた新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案し, 再構成ロバスト性と帯域幅インテリジェンスとの異例なトレードオフを実現する。
特に、提案したPFVCのエンコーダは、高次元の顔信号をプログレッシブな方法で適応的な視覚トークンに投影し、デコーダは、これらの適応的な視覚トークンを運動推定や信号合成のために、異なる粒度レベルで再構築することができる。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding(VVC)コーデックや最先端GFVCアルゴリズムと比較して,符号化の柔軟性と速度歪み性能を向上できることを示した。
プロジェクトのページはhttps://github.com/Berlin0610/PFVCで見ることができる。
関連論文リスト
- Standardizing Generative Face Video Compression using Supplemental Enhancement Information [22.00903915523654]
本稿では,補助強調情報(SEI)を用いたGFVC(Generative Face Video Compression)アプローチを提案する。
執筆時点で提案されているGFVCアプローチは、JVET(Joint Video Experts Team)による標準化のための公式なTuC(Technology Under consideration)である。
著者の知識を最大限活用するために、JVETが提案したSEIベースのGFVCアプローチは、生成ビデオ圧縮のための最初の標準化活動である。
論文 参考訳(メタデータ) (2024-10-19T13:37:24Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - When Video Coding Meets Multimodal Large Language Models: A Unified Paradigm for Video Coding [112.44822009714461]
CMVC(Cross-Modality Video Coding)は、ビデオ符号化における多モード表現とビデオ生成モデルを探索する先駆的な手法である。
復号化の際には、以前に符号化されたコンポーネントとビデオ生成モデルを利用して複数の復号モードを生成する。
TT2Vは効果的な意味再構成を実現し,IT2Vは競争力のある知覚整合性を示した。
論文 参考訳(メタデータ) (2024-08-15T11:36:18Z) - Generative Face Video Coding Techniques and Standardization Efforts: A
Review [17.856692220227583]
GFVC(Generative Face Video Coding)技術は、超低帯域幅のシナリオにおいて高品質な顔ビデオ通信を実現する。
本稿では,GFVC技術の最近の進歩と標準化の取り組みを包括的に調査する。
論文 参考訳(メタデータ) (2023-11-05T13:32:51Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Interactive Face Video Coding: A Generative Compression Framework [18.26476468644723]
本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
論文 参考訳(メタデータ) (2023-02-20T11:24:23Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Learned Video Compression via Heterogeneous Deformable Compensation
Network [78.72508633457392]
不安定な圧縮性能の問題に対処するために,不均一変形補償戦略(HDCVC)を用いた学習ビデオ圧縮フレームワークを提案する。
より具体的には、提案アルゴリズムは隣接する2つのフレームから特徴を抽出し、コンテンツ近傍の不均一な変形(HetDeform)カーネルオフセットを推定する。
実験結果から,HDCVCは最近の最先端の学習ビデオ圧縮手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-07-11T02:31:31Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z) - Towards Coding for Human and Machine Vision: A Scalable Image Coding
Approach [104.02201472370801]
圧縮モデルと生成モデルの両方を活用することにより,新しい画像符号化フレームワークを考案した。
高度な生成モデルを導入することで、コンパクトな特徴表現と参照画素から画像を再構成するフレキシブルネットワークを訓練する。
実験により、人間の視覚的品質と顔のランドマーク検出の両方において、我々の枠組みが優れていることが示された。
論文 参考訳(メタデータ) (2020-01-09T10:37:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。