論文の概要: Bidirectional Learned Facial Animation Codec for Low Bitrate Talking Head Videos
- arxiv url: http://arxiv.org/abs/2503.09787v1
- Date: Wed, 12 Mar 2025 19:39:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-14 15:51:34.422328
- Title: Bidirectional Learned Facial Animation Codec for Low Bitrate Talking Head Videos
- Title(参考訳): 低ビットレートトーキングヘッドビデオのための双方向学習顔画像コーデック
- Authors: Riku Takahashi, Ryugo Morita, Fuma Kimishima, Kosuke Iwama, Jinjia Zhou,
- Abstract要約: ディープ・フェース・アニメーション技術は、ディープ・ジェネレーティブ・モデルを適用して音声ヘッドビデオを効率よく圧縮する。
本稿では,過去と未来のフレームを用いた自然な顔画像を生成する,新しい学習アニメーションを提案する。
- 参考スコア(独自算出の注目度): 6.062921267681344
- License:
- Abstract: Existing deep facial animation coding techniques efficiently compress talking head videos by applying deep generative models. Instead of compressing the entire video sequence, these methods focus on compressing only the keyframe and the keypoints of non-keyframes (target frames). The target frames are then reconstructed by utilizing a single keyframe, and the keypoints of the target frame. Although these unidirectional methods can reduce the bitrate, they rely on a single keyframe and often struggle to capture large head movements accurately, resulting in distortions in the facial region. In this paper, we propose a novel bidirectional learned animation codec that generates natural facial videos using past and future keyframes. First, in the Bidirectional Reference-Guided Auxiliary Stream Enhancement (BRG-ASE) process, we introduce a compact auxiliary stream for non-keyframes, which is enhanced by adaptively selecting one of two keyframes (past and future). This stream improves video quality with a slight increase in bitrate. Then, in the Bidirectional Reference-Guided Video Reconstruction (BRG-VRec) process, we animate the adaptively selected keyframe and reconstruct the target frame using both the animated keyframe and the auxiliary frame. Extensive experiments demonstrate a 55% bitrate reduction compared to the latest animation based video codec, and a 35% bitrate reduction compared to the latest video coding standard, Versatile Video Coding (VVC) on a talking head video dataset. It showcases the efficiency of our approach in improving video quality while simultaneously decreasing bitrate.
- Abstract(参考訳): 既存のディープ・フェース・アニメーション・コーディング技術は、ディープ・ジェネレーティブ・モデルを適用して音声ヘッドビデオを効率よく圧縮する。
ビデオシーケンス全体を圧縮するのではなく、キーフレームと非キーフレーム(ターゲットフレーム)のキーポイントのみを圧縮することに重点を置いている。
そして、単一のキーフレームとターゲットフレームのキーポイントとを利用して、ターゲットフレームを再構築する。
これらの一方向法はビットレートを減らすことができるが、単一のキーフレームに依存しており、しばしば大きな頭部の動きを正確に捉えるのに苦労し、顔領域の歪みをもたらす。
本稿では,過去と将来のキーフレームを用いた自然な顔映像を生成する,双方向学習型アニメーションコーデックを提案する。
まず、双方向参照誘導補助ストリーム強化(BRG-ASE)プロセスにおいて、2つのキーフレームのうちの1つ(過去と未来)を適応的に選択することで、非キーフレームのためのコンパクトな補助ストリームを導入する。
このストリームはビットレートをわずかに増加させてビデオ品質を向上させる。
そして、双方向参照誘導ビデオ再構成(BRG-VRec)プロセスにおいて、適応的に選択されたキーフレームをアニメーション化し、アニメーションされたキーフレームと補助フレームの両方を用いてターゲットフレームを再構成する。
大規模な実験では、最新のアニメーションベースのビデオコーデックと比較して55%のビットレートの削減、最新のビデオコーディング標準であるVersatile Video Coding(VVC)と比較して35%のビットレートの削減が示されている。
ビットレートを同時に減少させながら、映像品質を改善するためのアプローチの効率性を示す。
関連論文リスト
- Large Motion Video Autoencoding with Cross-modal Video VAE [52.13379965800485]
ビデオ可変オートエンコーダ(VAE)は、ビデオ冗長性を低減し、効率的なビデオ生成を容易にするために不可欠である。
既存のビデオVAEは時間圧縮に対処し始めているが、しばしば再建性能が不十分である。
本稿では,高忠実度ビデオエンコーディングが可能な,新規で強力なビデオオートエンコーダを提案する。
論文 参考訳(メタデータ) (2024-12-23T18:58:24Z) - ViBiDSampler: Enhancing Video Interpolation Using Bidirectional Diffusion Sampler [53.98558445900626]
現在の画像とビデオの拡散モデルは、単一のフレームからビデオを生成するのに強力だが、2フレーム条件付き生成に適応する必要がある。
我々は,これらのオフマンド問題に対処するために,広範囲な再ノイズや微調整を必要とせずに,新しい双方向サンプリング戦略を導入する。
提案手法では,それぞれ開始フレームと終了フレームに条件付き前方経路と後方経路の両方に沿って逐次サンプリングを行い,中間フレームの整合性を確保した。
論文 参考訳(メタデータ) (2024-10-08T03:01:54Z) - Bi-Directional Deep Contextual Video Compression [17.195099321371526]
本稿では,Bフレームに適した双方向深層映像圧縮方式をDCVC-Bと呼ぶ。
まず、効果的な動き差分符号化のための双方向の動き差分文脈伝搬法を提案する。
次に、双方向文脈圧縮モデルと対応する双方向時間エントロピーモデルを提案する。
第3に,階層的品質構造に基づくトレーニング戦略を提案し,画像の大規模なグループ間で効果的なビット割り当てを実現する。
論文 参考訳(メタデータ) (2024-08-16T08:45:25Z) - Drag-A-Video: Non-rigid Video Editing with Point-based Interaction [63.78538355189017]
そこで我々はDrag-A-Videoと呼ばれるインタラクティブなポイントベースビデオ操作のための拡散に基づく新しい手法を提案する。
本手法では,入力ビデオの第1フレームのマスクだけでなく,ハンドポイントとターゲットポイントのペアをクリックできる。
映像の内容を正確に修正するために,ビデオの機能を更新するために,新しい映像レベルのモーションインスペクタを用いる。
論文 参考訳(メタデータ) (2023-12-05T18:05:59Z) - Perceptual Quality Improvement in Videoconferencing using
Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。
まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。
そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文 参考訳(メタデータ) (2023-11-07T16:38:23Z) - IBVC: Interpolation-driven B-frame Video Compression [68.18440522300536]
Bフレームビデオ圧縮は、双方向動作推定と動き補償(MEMC)符号化をミドルフレーム再構成に適用することを目的としている。
従来の学習アプローチでは、しばしば双方向の光フロー推定に依存するニューラルネットワークのPフレームコーデックをBフレームに直接拡張する。
これらの問題に対処するために,IBVC (Interpolation-B-frame Video Compression) という単純な構造を提案する。
論文 参考訳(メタデータ) (2023-09-25T02:45:51Z) - Predictive Coding For Animation-Based Video Compression [13.161311799049978]
本稿では,画像アニメーションを予測器として用いる予測符号化手法を提案し,実際の対象フレームに対する残差を符号化する。
実験の結果,HEVCビデオ標準に比べて70%以上,VVCに比べて30%以上,有意な上昇を示した。
論文 参考訳(メタデータ) (2023-07-09T14:40:54Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Compressing Video Calls using Synthetic Talking Heads [43.71577046989023]
本稿では,ヘッドビデオ圧縮のためのエンドツーエンドシステムを提案する。
提案アルゴリズムは,他の音声ヘッドビデオがアニメーションによって生成される間,ピボットフレームを断続的に送信する。
我々は、最先端の顔再現ネットワークを用いて、非ピボットフレームのキーポイントを検出し、それを受信機に送信する。
論文 参考訳(メタデータ) (2022-10-07T16:52:40Z) - Conditional Entropy Coding for Efficient Video Compression [82.35389813794372]
本稿では,フレーム間の条件エントロピーをモデル化することのみに焦点を当てた,非常にシンプルで効率的なビデオ圧縮フレームワークを提案する。
まず、画像遅延符号間のエントロピーをモデル化する単純なアーキテクチャが、他のニューラルビデオ圧縮やビデオコーデックと同等の競争力を持つことを示す。
次に、このアーキテクチャの上に新しい内部学習拡張を提案し、復号速度を抑えることなく10%の節約を実現した。
論文 参考訳(メタデータ) (2020-08-20T20:01:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。