論文の概要: Interactive Face Video Coding: A Generative Compression Framework
- arxiv url: http://arxiv.org/abs/2302.09919v1
- Date: Mon, 20 Feb 2023 11:24:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-21 15:32:12.123890
- Title: Interactive Face Video Coding: A Generative Compression Framework
- Title(参考訳): インタラクティブな顔ビデオ符号化 - 生成圧縮フレームワーク
- Authors: Bolin Chen, Zhao Wang, Binzhe Li, Shurun Wang, Shiqi Wang, Yan Ye
- Abstract要約: 本稿では,対話型顔映像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
- 参考スコア(独自算出の注目度): 18.26476468644723
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a novel framework for Interactive Face Video Coding
(IFVC), which allows humans to interact with the intrinsic visual
representations instead of the signals. The proposed solution enjoys several
distinct advantages, including ultra-compact representation, low delay
interaction, and vivid expression and headpose animation. In particular, we
propose the Internal Dimension Increase (IDI) based representation, greatly
enhancing the fidelity and flexibility in rendering the appearance while
maintaining reasonable representation cost. By leveraging strong statistical
regularities, the visual signals can be effectively projected into controllable
semantics in the three dimensional space (e.g., mouth motion, eye blinking,
head rotation and head translation), which are compressed and transmitted. The
editable bitstream, which naturally supports the interactivity at the semantic
level, can synthesize the face frames via the strong inference ability of the
deep generative model. Experimental results have demonstrated the performance
superiority and application prospects of our proposed IFVC scheme. In
particular, the proposed scheme not only outperforms the state-of-the-art video
coding standard Versatile Video Coding (VVC) and the latest generative
compression schemes in terms of rate-distortion performance for face videos,
but also enables the interactive coding without introducing additional
manipulation processes. Furthermore, the proposed framework is expected to shed
lights on the future design of the digital human communication in the
metaverse.
- Abstract(参考訳): 本稿では,対話型顔画像符号化(IFVC)のための新しいフレームワークを提案する。
提案手法には,超コンパクト表現,低遅延相互作用,鮮明な表現と主目的アニメーションなど,いくつかの利点がある。
特に,内部寸法増加 (idi) に基づく表現を提案し,適切な表現コストを維持しつつ,外観の再現性と柔軟性を大幅に向上させる。
強い統計的規則性を活用することで、視覚信号を3次元空間における制御可能な意味論(例えば、口の動き、点滅、頭部回転、頭部翻訳)に効果的に投影し、送信することができる。
編集可能なビットストリームは、意味レベルでの相互作用を自然にサポートし、深層生成モデルの強い推論能力によって顔フレームを合成することができる。
実験結果は,提案するifvc方式の性能と適用可能性を示した。
特に,提案方式は,最先端のビデオ符号化規格であるVersatile Video Coding (VVC) と最新の生成圧縮方式を,顔ビデオのレート歪み性能の観点から上回るだけでなく,新たな操作プロセスを導入することなくインタラクティブな符号化を可能にする。
さらに,提案手法は,メタバースにおけるデジタルヒューマンコミュニケーションの将来設計に光を当てることが期待されている。
関連論文リスト
- EmotiveTalk: Expressive Talking Head Generation through Audio Information Decoupling and Emotional Video Diffusion [49.55774551366049]
拡散モデルは、会話のヘッドジェネレーションの分野に革命をもたらしたが、長期的には表現性、制御可能性、安定性に課題に直面している。
これらの問題に対処するためのEmotiveTalkフレームワークを提案する。
実験結果から,EmotiveTalkは表現力のある対話型ヘッドビデオを生成することができ,長時間発生時の感情の制御性と安定性を保証できることがわかった。
論文 参考訳(メタデータ) (2024-11-23T04:38:51Z) - Generative Human Video Compression with Multi-granularity Temporal Trajectory Factorization [13.341123726068652]
本稿では,人為的ビデオ圧縮のための多粒度時間軌道因子化フレームワークを提案する。
実験結果から,提案手法は最新の生成モデルと最先端のビデオ符号化標準であるVersatile Video Codingより優れていた。
論文 参考訳(メタデータ) (2024-10-14T05:34:32Z) - Beyond GFVC: A Progressive Face Video Compression Framework with Adaptive Visual Tokens [28.03183316628635]
本稿では、適応的な視覚トークンを用いて、再構成と帯域幅のインテリジェンス間の例外的なトレードオフを実現する、新しいプログレッシブ・フェイス・ビデオ圧縮フレームワークであるPFVCを提案する。
実験により,提案したPFVCフレームワークは,最新のVersatile Video Coding (VVC) や最新技術であるGenerative Face Video Compression (GFVC) アルゴリズムと比較して,符号化の柔軟性と速度歪み性能に優れることを示した。
論文 参考訳(メタデータ) (2024-10-11T03:24:21Z) - Image Translation as Diffusion Visual Programmers [52.09889190442439]
Diffusion Visual Programmer (DVP) は、ニューロシンボリックな画像翻訳フレームワークである。
我々のフレームワークはGPTアーキテクチャ内に条件フレキシブル拡散モデルをシームレスに組み込む。
大規模な実験は、DVPの卓越したパフォーマンスを示し、同時に芸術を超越している。
論文 参考訳(メタデータ) (2024-01-18T05:50:09Z) - Semantic Face Compression for Metaverse: A Compact 3D Descriptor Based
Approach [15.838410034900138]
我々は仮想アバター顔のための新しいメタバース通信パラダイムを構想し、コンパクトな3次元顔記述子を用いたセマンティック顔圧縮を開発する。
提案手法は,機械解析に基づくデジタルヒューマンコミュニケーションなど,多数の応用が期待できる。
論文 参考訳(メタデータ) (2023-09-24T13:39:50Z) - VNVC: A Versatile Neural Video Coding Framework for Efficient
Human-Machine Vision [59.632286735304156]
コード化された表現をピクセルに復号することなく直接拡張・解析することがより効率的である。
再構成と直接拡張/分析の両方をサポートするために,コンパクト表現の学習を目標とする汎用型ニューラルビデオ符号化(VNVC)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-19T03:04:57Z) - Text-driven Video Prediction [83.04845684117835]
テキスト駆動型ビデオ予測(TVP)と呼ばれる新しいタスクを提案する。
本課題は,最初のフレームとテキストキャプションを入力として,以下のフレームを合成することを目的とする。
進行動作情報に対する因果推論におけるテキストの能力を調べるため、我々のTVPフレームワークはテキスト推論モジュール(TIM)を含む。
論文 参考訳(メタデータ) (2022-10-06T12:43:07Z) - Towards Modality Transferable Visual Information Representation with
Optimal Model Compression [67.89885998586995]
本稿では,伝達可能なモダリティの原理を活かした視覚信号表現手法を提案する。
提案するフレームワークは最先端のビデオコーディング標準に実装されている。
論文 参考訳(メタデータ) (2020-08-13T01:52:40Z) - An Emerging Coding Paradigm VCM: A Scalable Coding Approach Beyond
Feature and Signal [99.49099501559652]
Video Coding for Machine (VCM)は、視覚的特徴圧縮と古典的なビデオ符号化のギャップを埋めることを目的としている。
我々は,学習した動きパターンのガイダンスを用いて,映像フレームを再構成するために条件付き深層生成ネットワークを用いる。
予測モデルを介してスパース動作パターンを抽出することを学ぶことにより、特徴表現をエレガントに活用し、符号化されたフレームの外観を生成する。
論文 参考訳(メタデータ) (2020-01-09T14:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。