Fugu-MT 論文翻訳(概要): Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos

論文の概要: Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos

arxiv url: http://arxiv.org/abs/2506.13419v1
Date: Mon, 16 Jun 2025 12:34:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:48.396582
Title: Audio-Visual Driven Compression for Low-Bitrate Talking Head Videos
Title（参考訳）: 低ビットレートトーキングヘッドビデオのためのオーディオ映像駆動圧縮
Authors: Riku Takahashi, Ryugo Morita, Jinjia Zhou,
Abstract要約: 本稿では,コンパクトな3Dモーション機能と音声信号を統合した,新しい音声視覚駆動ビデオを提案する。 CelebV-HQデータセットの実験では,VVCに比べて22%削減された。これは、同等の帯域幅で優れたリップシンク精度と視覚的忠実度を提供する。
参考スコア（独自算出の注目度）: 7.105786967332924
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Talking head video compression has advanced with neural rendering and keypoint-based methods, but challenges remain, especially at low bit rates, including handling large head movements, suboptimal lip synchronization, and distorted facial reconstructions. To address these problems, we propose a novel audio-visual driven video codec that integrates compact 3D motion features and audio signals. This approach robustly models significant head rotations and aligns lip movements with speech, improving both compression efficiency and reconstruction quality. Experiments on the CelebV-HQ dataset show that our method reduces bitrate by 22% compared to VVC and by 8.5% over state-of-the-art learning-based codec. Furthermore, it provides superior lip-sync accuracy and visual fidelity at comparable bitrates, highlighting its effectiveness in bandwidth-constrained scenarios.
Abstract（参考訳）: ヘッドビデオ圧縮は、ニューラルレンダリングとキーポイントベースの手法で進歩しているが、特に大きな頭部の動きの処理、唇下唇の同期、変形した顔の再構成など、低ビットレートでの課題が残っている。これらの問題に対処するために,コンパクトな3Dモーション機能と音声信号を統合した新しい音声視覚駆動ビデオコーデックを提案する。提案手法は, 頭部回転を頑健にモデル化し, 唇の動きを音声と一致させ, 圧縮効率と復元品質を両立させる。 CelebV-HQデータセットの実験により,本手法はVVCと比較してビットレートを22%削減し,最先端の学習ベースコーデックよりも8.5%削減した。さらに、同じビットレートで優れたリップシンク精度と視覚的忠実度を提供し、帯域幅制限シナリオにおけるその有効性を強調している。

関連論文リスト

Low-Bitrate Video Compression through Semantic-Conditioned Diffusion [19.21409064179896]
本報告では, 先行前の生成の詳細を頼りながら, 最も意味のある情報のみを伝達する重大障害を提案する。条件付きビデオは、セマンティック、外観、モーションキューから高品質で時間的に整合したビデオを再構成する。
論文参考訳（メタデータ） (2025-11-29T09:38:16Z)
Generative Latent Video Compression [26.99743586846841]
本稿では,知覚的ビデオ圧縮の有効なフレームワークであるジェネレーティブ・ラテント・ビデオ圧縮(GLVC)を提案する。 GLVCは、ビデオフレームを知覚的に整列された潜在空間に投影するために、事前訓練された連続トークンを使用する。 GLVC は DISTS と LPIPS の指標で最先端のパフォーマンスを達成することを示す。
論文参考訳（メタデータ） (2025-10-11T03:28:49Z)
DiffO: Single-step Diffusion for Image Compression at Ultra-Low Bitrates [7.344746778324299]
画像圧縮(DiffO)のための最初の単一ステップ拡散モデルを提案する。実験の結果,DiffOは従来の拡散法に比べてデコード速度を50倍向上させながら,圧縮性能を上回っていることがわかった。
論文参考訳（メタデータ） (2025-06-19T19:53:27Z)
Embedding Compression Distortion in Video Coding for Machines [67.97469042910855]
現在、ビデオ伝送は人間の視覚システム(HVS)だけでなく、分析のための機械認識にも役立っている。本稿では,機械知覚関連歪み表現を抽出し,下流モデルに埋め込む圧縮歪埋め込み(CDRE)フレームワークを提案する。我々のフレームワークは,実行時間,パラメータ数といったオーバーヘッドを最小限に抑えて,既存のコーデックのレートタスク性能を効果的に向上させることができる。
論文参考訳（メタデータ） (2025-03-27T13:01:53Z)
Compression-Realized Deep Structural Network for Video Quality Enhancement [78.13020206633524]
本稿では,圧縮ビデオの品質向上の課題に焦点をあてる。既存の手法のほとんどは、圧縮コーデック内での事前処理を最適に活用するための構造設計を欠いている。新しいパラダイムは、より意識的な品質向上プロセスのために緊急に必要である。
論文参考訳（メタデータ） (2024-05-10T09:18:17Z)
Perceptual Quality Improvement in Videoconferencing using Keyframes-based GAN [28.773037051085318]
本稿では,ビデオ会議における圧縮アーティファクト削減のための新しいGAN手法を提案する。まず,圧縮および参照フレームからマルチスケールの特徴を抽出する。そして、私たちのアーキテクチャは、顔のランドマークに従って、これらの特徴を段階的に組み合わせます。
論文参考訳（メタデータ） (2023-11-07T16:38:23Z)
Sandwiched Video Compression: Efficiently Extending the Reach of Standard Codecs with Neural Wrappers [11.968545394054816]
本稿では,標準的なビデオにニューラルネットワークをラップするビデオ圧縮システムを提案する。ネットワークは、速度歪み損失関数を最適化するために共同で訓練される。 HEVCと同等品質で30%の改善が見られた。
論文参考訳（メタデータ） (2023-03-20T22:03:44Z)
Leveraging Bitstream Metadata for Fast, Accurate, Generalized Compressed Video Quality Enhancement [74.1052624663082]
圧縮ビデオの細部を復元する深層学習アーキテクチャを開発した。これにより,従来の圧縮補正法と比較して復元精度が向上することを示す。我々は、ビットストリームで容易に利用できる量子化データに対して、我々のモデルを条件付けする。
論文参考訳（メタデータ） (2022-01-31T18:56:04Z)
SoundStream: An End-to-End Neural Audio Codec [78.94923131038682]
本稿では,音声,音楽,一般音声を効率よく圧縮できる新しいニューラルオーディオシステムSoundStreamを紹介する。 SoundStreamは完全な畳み込みエンコーダ/デコーダネットワークと残留ベクトル量子化器に頼っている。エンコーダまたはデコーダ側で、追加のレイテンシなしで、共同圧縮と拡張を行うことができます。
論文参考訳（メタデータ） (2021-07-07T15:45:42Z)
Ultra-low bitrate video conferencing using deep image animation [7.263312285502382]
ビデオ会議のための超低速ビデオ圧縮のための新しい深層学習手法を提案する。我々はディープニューラルネットワークを用いて、動き情報をキーポイント変位として符号化し、デコーダ側で映像信号を再構成する。
論文参考訳（メタデータ） (2020-12-01T09:06:34Z)
Content Adaptive and Error Propagation Aware Deep Video Compression [110.31693187153084]
本稿では,コンテンツ適応型・誤り伝搬対応型ビデオ圧縮システムを提案する。本手法では, 複数フレームの圧縮性能を1フレームではなく複数フレームで考慮し, 共同学習手法を用いる。従来の圧縮システムでは手作りのコーディングモードを使用する代わりに,オンラインエンコーダ更新方式をシステム内に設計する。
論文参考訳（メタデータ） (2020-03-25T09:04:24Z)
Learning for Video Compression with Hierarchical Quality and Recurrent Enhancement [164.7489982837475]
本稿では,階層型ビデオ圧縮(HLVC)手法を提案する。我々のHLVCアプローチでは、エンコーダ側とデコーダ側の低品質フレームの圧縮と強化を容易にするため、階層的品質は符号化効率の恩恵を受ける。
論文参考訳（メタデータ） (2020-03-04T09:31:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。