論文の概要: Generative Models at the Frontier of Compression: A Survey on Generative Face Video Coding
- arxiv url: http://arxiv.org/abs/2506.07369v1
- Date: Mon, 09 Jun 2025 02:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.783812
- Title: Generative Models at the Frontier of Compression: A Survey on Generative Face Video Coding
- Title(参考訳): 圧縮の最前線における生成モデル:生成的顔画像符号化に関する調査
- Authors: Bolin Chen, Shanzhi Yin, Goluck Konuko, Giuseppe Valenzise, Zihan Zhang, Shiqi Wang, Yan Ye,
- Abstract要約: Generative Face Video Coding (GFVC)はこの革命の最前線にいる。
GFVCは複雑な顔のダイナミクスを、エンコーダ側でビットストリームのコンパクト化のためにコンパクトな潜在符号に特徴付けることができる。
本稿ではGFVC技術に関する包括的調査を行う。
- 参考スコア(独自算出の注目度): 28.103355729714014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rise of deep generative models has greatly advanced video compression, reshaping the paradigm of face video coding through their powerful capability for semantic-aware representation and lifelike synthesis. Generative Face Video Coding (GFVC) stands at the forefront of this revolution, which could characterize complex facial dynamics into compact latent codes for bitstream compactness at the encoder side and leverages powerful deep generative models to reconstruct high-fidelity face signal from the compressed latent codes at the decoder side. As such, this well-designed GFVC paradigm could enable high-fidelity face video communication at ultra-low bitrate ranges, far surpassing the capabilities of the latest Versatile Video Coding (VVC) standard. To pioneer foundational research and accelerate the evolution of GFVC, this paper presents the first comprehensive survey of GFVC technologies, systematically bridging critical gaps between theoretical innovation and industrial standardization. In particular, we first review a broad range of existing GFVC methods with different feature representations and optimization strategies, and conduct a thorough benchmarking analysis. In addition, we construct a large-scale GFVC-compressed face video database with subjective Mean Opinion Scores (MOSs) based on human perception, aiming to identify the most appropriate quality metrics tailored to GFVC. Moreover, we summarize the GFVC standardization potentials with a unified high-level syntax and develop a low-complexity GFVC system which are both expected to push forward future practical deployments and applications. Finally, we envision the potential of GFVC in industrial applications and deliberate on the current challenges and future opportunities.
- Abstract(参考訳): 深層生成モデルの台頭は、セマンティック・アウェアな表現とライフライクな合成の強力な能力を通じて、顔ビデオ符号化のパラダイムを再構築し、ビデオ圧縮を大幅に進歩させた。
この革命の最前線にはGFVC(Generative Face Video Coding)があり、エンコーダ側ではビットストリームのコンパクト性のために複雑な顔ダイナミクスをコンパクトな潜伏符号に特徴付け、デコーダ側では圧縮された潜伏符号から高忠実な顔信号を再構成するために強力な深層生成モデルを活用することができる。
そのため、このよく設計されたGFVCパラダイムは、最新のVersatile Video Coding(VVC)標準をはるかに超えて、超低ビットレート範囲での高忠実な顔ビデオ通信を可能にする。
本稿では、GFVCの基礎研究の先駆者であり、GFVC技術の進化を加速するために、理論革新と工業標準化の間に重要なギャップを体系的に埋める、GFVC技術に関する最初の包括的調査を示す。
特に,特徴表現と最適化戦略の異なる既存のGFVC手法を概説し,徹底的なベンチマーク分析を行う。
さらに,人間の知覚に基づく主観的平均オピニオンスコア(MOS)を用いた大規模なGFVC圧縮顔ビデオデータベースを構築し,GFVCに合わせた最も適切な品質指標を同定する。
さらに、統合された高レベル構文でGFVC標準化ポテンシャルを要約し、将来の実用的展開と応用を推し進める低複雑さGFVCシステムを開発する。
最後に,産業応用におけるGFVCの可能性について考察し,現状の課題と今後の可能性について考察する。
関連論文リスト
- REGEN: Learning Compact Video Embedding with (Re-)Generative Decoder [52.698595889988766]
生成モデルのためのビデオ埋め込み学習について,新しい視点を提示する。
入力ビデオの正確な再生を必要とせず、効果的な埋め込みは視覚的に妥当な再構築に焦点を当てるべきである。
本稿では,従来のエンコーダ・デコーダ・ビデオ埋め込みをエンコーダ・ジェネレータ・フレームワークに置き換えることを提案する。
論文 参考訳(メタデータ) (2025-03-11T17:51:07Z) - Pleno-Generation: A Scalable Generative Face Video Compression Framework with Bandwidth Intelligence [19.137109044483545]
Pleno-Generation(PGen)フレームワークは、コンパクトなビットストリームを追求するよりも、高忠実度再構築を優先する。
提案したフレームワークは、アプリケーションのコーディングにより大きな柔軟性を提供できることを示す。
最新のVersatile Video Coding (VVC) と比較して,提案手法は競合するBjontegaard-delta-rateの削減を実現する。
論文 参考訳(メタデータ) (2025-02-24T12:03:30Z) - Standardizing Generative Face Video Compression using Supplemental Enhancement Information [22.00903915523654]
本稿では,補助強調情報(SEI)を用いたGFVC(Generative Face Video Compression)アプローチを提案する。
執筆時点では,SEI メッセージを用いたGFVC アプローチが Versatile Supplemental Enhancement Information (VSEI) 規格の公式作業ドラフトに採用されている。
著者の知識を最大限活用するために、JVETが提案したSEIベースのGFVCアプローチは、生成ビデオ圧縮のための最初の標準化活動である。
論文 参考訳(メタデータ) (2024-10-19T13:37:24Z) - Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文 参考訳(メタデータ) (2024-10-11T03:24:21Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Generative Face Video Coding Techniques and Standardization Efforts: A
Review [17.856692220227583]
GFVC(Generative Face Video Coding)技術は、超低帯域幅のシナリオにおいて高品質な顔ビデオ通信を実現する。
本稿では,GFVC技術の最近の進歩と標準化の取り組みを包括的に調査する。
論文 参考訳(メタデータ) (2023-11-05T13:32:51Z) - CANF-VC: Conditional Augmented Normalizing Flows for Video Compression [81.41594331948843]
CANF-VCは、エンドツーエンドの学習ベースのビデオ圧縮システムである。
条件付き拡張正規化フロー(ANF)に基づく。
論文 参考訳(メタデータ) (2022-07-12T04:53:24Z) - Efficient VVC Intra Prediction Based on Deep Feature Fusion and
Probability Estimation [57.66773945887832]
本稿では,フレーム内予測におけるVersatile Video Coding (VVC) の複雑性を,深層融合と確率推定の2段階のフレームワークを用いて最適化することを提案する。
特に高精細度(HD)および超高精細度(UHD)ビデオシーケンスにおいて,提案手法の優位性を示す実験結果が得られた。
論文 参考訳(メタデータ) (2022-05-07T08:01:32Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。