論文の概要: Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos
- arxiv url: http://arxiv.org/abs/2506.13419v1
- Date: Mon, 16 Jun 2025 12:34:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.396582
- Title: Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos
- Title(参考訳): 低ビットレートトーキングヘッドビデオのためのオーディオ映像駆動圧縮
- Authors: Riku Takahashi, Ryugo Morita, Jinjia Zhou,
- Abstract要約: 本稿では,コンパクトな3Dモーション機能と音声信号を統合した,新しい音声視覚駆動ビデオを提案する。
CelebV-HQデータセットの実験では,VVCに比べて22%削減された。
これは、同等の帯域幅で優れたリップシンク精度と視覚的忠実度を提供する。
- 参考スコア(独自算出の注目度): 7.105786967332924
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Talking head video compression has advanced with neural rendering and keypoint-based methods, but challenges remain, especially at low bit rates, including handling large head movements, suboptimal lip synchronization, and distorted facial reconstructions. To address these problems, we propose a novel audio-visual driven video codec that integrates compact 3D motion features and audio signals. This approach robustly models significant head rotations and aligns lip movements with speech, improving both compression efficiency and reconstruction quality. Experiments on the CelebV-HQ dataset show that our method reduces bitrate by 22% compared to VVC and by 8.5% over state-of-the-art learning-based codec. Furthermore, it provides superior lip-sync accuracy and visual fidelity at comparable bitrates, highlighting its effectiveness in bandwidth-constrained scenarios.
- Abstract(参考訳): ヘッドビデオ圧縮は、ニューラルレンダリングとキーポイントベースの手法で進歩しているが、特に大きな頭部の動きの処理、唇下唇の同期、変形した顔の再構成など、低ビットレートでの課題が残っている。
これらの問題に対処するために,コンパクトな3Dモーション機能と音声信号を統合した新しい音声視覚駆動ビデオコーデックを提案する。
提案手法は, 頭部回転を頑健にモデル化し, 唇の動きを音声と一致させ, 圧縮効率と復元品質を両立させる。
CelebV-HQデータセットの実験により,本手法はVVCと比較してビットレートを22%削減し,最先端の学習ベースコーデックよりも8.5%削減した。
さらに、同じビットレートで優れたリップシンク精度と視覚的忠実度を提供し、帯域幅制限シナリオにおけるその有効性を強調している。
関連論文リスト
- Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。
本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。
我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文 参考訳(メタデータ) (2025-03-27T13:01:53Z) - Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。
既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。
新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文 参考訳(メタデータ) (2024-05-10T09:18:17Z) - Sandwiched Video Compression: Efficiently Extending the Reach of
Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。
ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。
HEVCと同等品質で30%の改善が見られた。
論文 参考訳(メタデータ) (2023-03-20T22:03:44Z) - Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed
Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。
これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。
我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文 参考訳(メタデータ) (2022-01-31T18:56:04Z) - Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。
我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文 参考訳(メタデータ) (2020-12-01T09:06:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。