論文の概要: R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid
Landmarks Encoding and Progressive Multilayer Conditioning
- arxiv url: http://arxiv.org/abs/2312.05572v1
- Date: Sat, 9 Dec 2023 13:21:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 19:58:44.930692
- Title: R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid
Landmarks Encoding and Progressive Multilayer Conditioning
- Title(参考訳): r2-talker:ハッシュグリッドランドマーク符号化とプログレッシブ多層コンディショニングを用いたリアルタイム対話ヘッド合成
- Authors: Zhiling Ye and LiangGuo Zhang and Dingheng Zeng and Quan Lu and Ning
Jiang
- Abstract要約: R2-Talkerは現実的なリアルタイム音声ヘッド合成を可能にする効率的なフレームワークである。
顔のランドマークを条件付き特徴として符号化する新しい手法を提案する。
- 参考スコア(独自算出の注目度): 5.721886322443762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dynamic NeRFs have recently garnered growing attention for 3D talking
portrait synthesis. Despite advances in rendering speed and visual quality,
challenges persist in enhancing efficiency and effectiveness. We present
R2-Talker, an efficient and effective framework enabling realistic real-time
talking head synthesis. Specifically, using multi-resolution hash grids, we
introduce a novel approach for encoding facial landmarks as conditional
features. This approach losslessly encodes landmark structures as conditional
features, decoupling input diversity, and conditional spaces by mapping
arbitrary landmarks to a unified feature space. We further propose a scheme of
progressive multilayer conditioning in the NeRF rendering pipeline for
effective conditional feature fusion. Our new approach has the following
advantages as demonstrated by extensive experiments compared with the
state-of-the-art works: 1) The lossless input encoding enables acquiring more
precise features, yielding superior visual quality. The decoupling of inputs
and conditional spaces improves generalizability. 2) The fusing of conditional
features and MLP outputs at each MLP layer enhances conditional impact,
resulting in more accurate lip synthesis and better visual quality. 3) It
compactly structures the fusion of conditional features, significantly
enhancing computational efficiency.
- Abstract(参考訳): 動的NeRFは近年,3次元音声画像合成に注目が集まっている。
レンダリング速度と視覚的品質の進歩にもかかわらず、効率と効率性の向上には課題が続いている。
R2-Talkerはリアルなリアルタイム音声ヘッド合成を可能にする効率的かつ効果的なフレームワークである。
具体的には,マルチレゾリューションハッシュグリッドを用いて,顔ランドマークを条件特徴としてエンコードする新しい手法を提案する。
このアプローチは、任意のランドマークを統一された特徴空間にマッピングすることで、条件付き特徴としてランドマーク構造を損失なく符号化する。
さらに, 効率的な条件付き特徴融合のためのNeRFレンダリングパイプラインにおけるプログレッシブ多層条件設定手法を提案する。
我々の新しいアプローチは、最先端の成果と比較して、広範な実験によって示される以下の利点がある。
1) ロスレス入力符号化により, より正確な特徴の取得が可能となり, 視覚的品質が向上する。
入力と条件空間の分離は一般化性を向上させる。
2) 各MLP層における条件特徴とMLP出力の融合は条件の影響を高め, より正確な唇合成と視覚的品質の向上をもたらす。
3) 条件特徴の融合をコンパクトに構成し, 計算効率を大幅に向上する。
関連論文リスト
- FALCON: Resolving Visual Redundancy and Fragmentation in High-resolution Multimodal Large Language Models via Visual Registers [59.325141146786805]
高解像度視覚入力はマルチモーダル大言語モデル (MLLM) と実世界のタスクに対する視覚知覚能力の強化を兼ね備えている。
既存の高解像度MLLMの多くは、画像を処理するためのトリミングベースのアプローチに依存しており、断片化された視覚符号化と冗長トークンの急激な増加につながっている。
FALCONは、ビジュアルエンコーディングの段階で冗長トークンを同時に除去する新しいビジュアルレジスタ技術を導入した。
FALCONは、目覚しい9倍、16倍の視覚トークンで優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2025-01-27T18:36:10Z) - Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。
イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。
Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文 参考訳(メタデータ) (2024-06-27T02:32:46Z) - Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。
このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。
Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文 参考訳(メタデータ) (2024-03-16T04:40:10Z) - Learning Neural Duplex Radiance Fields for Real-Time View Synthesis [33.54507228895688]
本研究では,NeRFを高効率メッシュベースニューラル表現に蒸留・焼成する手法を提案する。
提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。
論文 参考訳(メタデータ) (2023-04-20T17:59:52Z) - You Can Ground Earlier than See: An Effective and Efficient Pipeline for
Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。
それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。
本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文 参考訳(メタデータ) (2023-03-14T12:53:27Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Multi-Scale Hourglass Hierarchical Fusion Network for Single Image
Deraining [8.964751500091005]
雨のひもはサイズ、方向および密度で頻繁に変わる深刻なぼやけおよび視覚質の低下をもたらします。
現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。
本稿では,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握するために,マルチスケールのHH2F-Netを提案する。
論文 参考訳(メタデータ) (2021-04-25T08:27:01Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene
Understanding via Domain Adaptation [17.530091734327296]
本研究では,霧の多い気象条件にロバストな自動車意味理解手法を提案する。
提案手法では,RGB色,深度,輝度の画像を密接な接続性を持つ異なるエンコーダに組み込む。
我々のモデルは、モデル全体の複雑さのごく一部で、現代のアプローチに匹敵する性能を達成する。
論文 参考訳(メタデータ) (2020-12-09T21:04:05Z) - Lightweight Single-Image Super-Resolution Network with Attentive
Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。
大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2020-11-13T06:01:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。