論文の概要: Lightweight High-Fidelity Low-Bitrate Talking Face Compression for 3D Video Conference
- arxiv url: http://arxiv.org/abs/2601.21269v1
- Date: Thu, 29 Jan 2026 05:03:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.586001
- Title: Lightweight High-Fidelity Low-Bitrate Talking Face Compression for 3D Video Conference
- Title(参考訳): 3次元ビデオ会議のための軽量高忠実低ビットレート音声圧縮
- Authors: Jianglong Li, Jun Xu, Bingcong Lu, Zhengxue Cheng, Hongwei Hu, Ronghua Wu, Li Song,
- Abstract要約: 従来の2Dビデオ圧縮技術は、微細で幾何学的な外観の詳細を保存できない。
本稿では,FLAMEに基づくパラメトリックモデリングと3DGSニューラルレンダリングを統合した,軽量で高忠実で低ビットレートの3次元顔圧縮フレームワークを提案する。
- 参考スコア(独自算出の注目度): 16.973019571440556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The demand for immersive and interactive communication has driven advancements in 3D video conferencing, yet achieving high-fidelity 3D talking face representation at low bitrates remains a challenge. Traditional 2D video compression techniques fail to preserve fine-grained geometric and appearance details, while implicit neural rendering methods like NeRF suffer from prohibitive computational costs. To address these challenges, we propose a lightweight, high-fidelity, low-bitrate 3D talking face compression framework that integrates FLAME-based parametric modeling with 3DGS neural rendering. Our approach transmits only essential facial metadata in real time, enabling efficient reconstruction with a Gaussian-based head model. Additionally, we introduce a compact representation and compression scheme, including Gaussian attribute compression and MLP optimization, to enhance transmission efficiency. Experimental results demonstrate that our method achieves superior rate-distortion performance, delivering high-quality facial rendering at extremely low bitrates, making it well-suited for real-time 3D video conferencing applications.
- Abstract(参考訳): 没入型・対話型コミュニケーションの需要は3Dビデオ会議の進歩を促しているが,低ビットレートでの高忠実度3D音声顔表現の実現は依然として課題である。
従来の2Dビデオ圧縮技術は、きめ細かな幾何や外観の詳細を保存できないが、NeRFのような暗黙のニューラルネットワークレンダリング手法は、計算コストの制限に悩まされている。
これらの課題に対処するために,FLAMEに基づくパラメトリックモデリングと3DGSニューラルレンダリングを統合した,軽量で高忠実で低ビットレートの3次元顔圧縮フレームワークを提案する。
提案手法は, 顔のメタデータのみをリアルタイムに送信し, ガウスの頭部モデルによる効率的な再構成を実現する。
さらに,送信効率を向上させるため,ガウス属性圧縮やMPP最適化など,コンパクトな表現と圧縮方式を導入する。
実験により,本手法は高速なレート歪み性能を実現し,低ビットレートで高画質な顔画像描画を実現し,リアルタイム3Dビデオ会議に適していることが示された。
関連論文リスト
- CSGaussian: Progressive Rate-Distortion Compression and Segmentation for 3D Gaussian Splatting [57.73006852239138]
本稿では,3次元ガウススプラッティングの速度歪み最適化圧縮とセグメンテーションのための最初の統一フレームワークを提案する(3DGS)。
速度歪みに最適化された3DGS圧縮の最近の進歩に触発されたこの研究は、セマンティックラーニングを圧縮パイプラインに統合し、デコーダ側アプリケーションをサポートする。
提案方式は暗黙的ニューラル表現に基づくハイパープライアを特徴とし,色属性と意味属性の両方の効率的なエントロピー符号化を実現する。
論文 参考訳(メタデータ) (2026-01-19T08:21:45Z) - 4DGCPro: Efficient Hierarchical 4D Gaussian Compression for Progressive Volumetric Video Streaming [52.76837132019501]
本稿では,新しい階層型4D圧縮フレームワークである4DGCProを紹介する。
4DGCProは、プログレッシブボリュームビデオストリーミングによるリアルタイムモバイルデコーディングと高品質なレンダリングを容易にする。
エンドツーエンドのエントロピー最適化トレーニングスキームを提案する。
論文 参考訳(メタデータ) (2025-09-22T08:38:17Z) - PGSTalker: Real-Time Audio-Driven Talking Head Generation via 3D Gaussian Splatting with Pixel-Aware Density Control [37.390794417927644]
PGSTalkerは3次元ガウススプラッティングに基づくリアルタイム音声駆動音声ヘッド合成フレームワークである(3DGS)。
レンダリング性能を向上させるため,画素認識密度制御手法を提案し,点密度を適応的に割り当て,動的顔領域のディテールを向上し,冗長性を低減した。
論文 参考訳(メタデータ) (2025-09-21T05:01:54Z) - TeGA: Texture Space Gaussian Avatars for High-Resolution Dynamic Head Modeling [52.87836237427514]
フォトリアルアバターは、テレプレゼンス、拡張現実、エンターテイメントにおける新興アプリケーションにおいて重要な要素であると見なされている。
本稿では,最先端の3Dヘッドアバターモデルを提案する。
論文 参考訳(メタデータ) (2025-05-08T22:10:27Z) - EVolSplat: Efficient Volume-based Gaussian Splatting for Urban View Synthesis [61.1662426227688]
既存のNeRFおよび3DGSベースの手法は、フォトリアリスティックレンダリングを実現する上で有望な結果を示すが、スローでシーンごとの最適化が必要である。
本稿では,都市景観を対象とした効率的な3次元ガウススプレイティングモデルEVolSplatを紹介する。
論文 参考訳(メタデータ) (2025-03-26T02:47:27Z) - Compression of 3D Gaussian Splatting with Optimized Feature Planes and Standard Video Codecs [5.583906047971048]
3D Splattingは3Dシーン表現の認識手法であり、高いレンダリング品質とスピードで知られている。
本稿では,コンパクト表現を用いてストレージオーバーヘッドを大幅に削減する効率的な圧縮手法を提案する。
実験により,本手法は,高レンダリング品質を維持しつつ,データ圧縮性において既存の手法よりも優れることを示した。
論文 参考訳(メタデータ) (2025-01-06T21:37:30Z) - A Refined 3D Gaussian Representation for High-Quality Dynamic Scene Reconstruction [2.022451212187598]
近年,Neural Radiance Fields (NeRF) は3次元の3次元再構成に革命をもたらした。
3D Gaussian Splatting (3D-GS)は、ニューラルネットワークの暗黙の表現から離れ、代わりに、シーンを直接ガウス型の分布を持つ点雲として表現している。
本稿では,高品質な動的シーン再構成のための高精細な3次元ガウス表現を提案する。
実験の結果,提案手法は3D-GSによるメモリ使用量を大幅に削減しつつ,レンダリング品質と高速化の既存手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2024-05-28T07:12:22Z) - Talk3D: High-Fidelity Talking Portrait Synthesis via Personalized 3D Generative Prior [29.120669908374424]
本研究では,Talk3Dと呼ばれる新しい音声駆動音声ヘッド合成フレームワークを提案する。
予め訓練された3D認識生成前を効果的に活用することにより、そのもっともらしい顔のジオメトリを忠実に再構築することができる。
提案手法は,既存の手法と比較して,極端な頭部ポーズ下であっても,現実的な顔のジオメトリーの生成に優れる。
論文 参考訳(メタデータ) (2024-03-29T12:49:40Z) - GeneFace++: Generalized and Stable Real-Time Audio-Driven 3D Talking
Face Generation [71.73912454164834]
音声-リップ同期の汎用化, 画質の向上, システム効率の向上が期待できる。
NeRFは、数分間のトレーニングビデオで高忠実で3D一貫性のある会話顔生成を実現することができるため、この分野で一般的な技術となっている。
そこで我々は,これらの課題に対処するためにGeneFace++を提案し,ピッチの輪郭を補助的特徴として利用し,顔の動き予測プロセスに時間的損失を導入する。
論文 参考訳(メタデータ) (2023-05-01T12:24:09Z) - Real-time Neural Radiance Talking Portrait Synthesis via Audio-spatial
Decomposition [61.6677901687009]
我々は,音声画像のリアルタイム合成を可能にする,効率的なNeRFベースのフレームワークを提案する。
提案手法は,リアルタイム・オーディオ・リップ同期音声ポートレートビデオを生成する。
論文 参考訳(メタデータ) (2022-11-22T16:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。