Fugu-MT 論文翻訳(概要): R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid Landmarks Encoding and Progressive Multilayer Conditioning

論文の概要: R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid Landmarks Encoding and Progressive Multilayer Conditioning

arxiv url: http://arxiv.org/abs/2312.05572v1
Date: Sat, 9 Dec 2023 13:21:01 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 19:58:44.930692
Title: R2-Talker: Realistic Real-Time Talking Head Synthesis with Hash Grid Landmarks Encoding and Progressive Multilayer Conditioning
Title（参考訳）: r2-talker:ハッシュグリッドランドマーク符号化とプログレッシブ多層コンディショニングを用いたリアルタイム対話ヘッド合成
Authors: Zhiling Ye and LiangGuo Zhang and Dingheng Zeng and Quan Lu and Ning Jiang
Abstract要約: R2-Talkerは現実的なリアルタイム音声ヘッド合成を可能にする効率的なフレームワークである。顔のランドマークを条件付き特徴として符号化する新しい手法を提案する。
参考スコア（独自算出の注目度）: 5.721886322443762
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Dynamic NeRFs have recently garnered growing attention for 3D talking portrait synthesis. Despite advances in rendering speed and visual quality, challenges persist in enhancing efficiency and effectiveness. We present R2-Talker, an efficient and effective framework enabling realistic real-time talking head synthesis. Specifically, using multi-resolution hash grids, we introduce a novel approach for encoding facial landmarks as conditional features. This approach losslessly encodes landmark structures as conditional features, decoupling input diversity, and conditional spaces by mapping arbitrary landmarks to a unified feature space. We further propose a scheme of progressive multilayer conditioning in the NeRF rendering pipeline for effective conditional feature fusion. Our new approach has the following advantages as demonstrated by extensive experiments compared with the state-of-the-art works: 1) The lossless input encoding enables acquiring more precise features, yielding superior visual quality. The decoupling of inputs and conditional spaces improves generalizability. 2) The fusing of conditional features and MLP outputs at each MLP layer enhances conditional impact, resulting in more accurate lip synthesis and better visual quality. 3) It compactly structures the fusion of conditional features, significantly enhancing computational efficiency.
Abstract（参考訳）: 動的NeRFは近年,3次元音声画像合成に注目が集まっている。レンダリング速度と視覚的品質の進歩にもかかわらず、効率と効率性の向上には課題が続いている。 R2-Talkerはリアルなリアルタイム音声ヘッド合成を可能にする効率的かつ効果的なフレームワークである。具体的には,マルチレゾリューションハッシュグリッドを用いて,顔ランドマークを条件特徴としてエンコードする新しい手法を提案する。このアプローチは、任意のランドマークを統一された特徴空間にマッピングすることで、条件付き特徴としてランドマーク構造を損失なく符号化する。さらに, 効率的な条件付き特徴融合のためのNeRFレンダリングパイプラインにおけるプログレッシブ多層条件設定手法を提案する。我々の新しいアプローチは、最先端の成果と比較して、広範な実験によって示される以下の利点がある。 1) ロスレス入力符号化により, より正確な特徴の取得が可能となり, 視覚的品質が向上する。入力と条件空間の分離は一般化性を向上させる。 2) 各MLP層における条件特徴とMLP出力の融合は条件の影響を高め, より正確な唇合成と視覚的品質の向上をもたらす。 3) 条件特徴の融合をコンパクトに構成し, 計算効率を大幅に向上する。

関連論文リスト

Feature Hallucination for Self-supervised Action Recognition [37.20267786858476]
本稿では,RGBビデオフレームからの動作概念と補助的特徴を共同で予測することにより,認識精度を向上させるディープトランスレーショナルアクション認識フレームワークを提案する。本研究では,Kineetics-400,Kineetics-600,Something V2など,複数のベンチマーク上での最先端性能を実現する。
論文参考訳（メタデータ） (2025-06-25T11:50:23Z)
FUSE: Label-Free Image-Event Joint Monocular Depth Estimation via Frequency-Decoupled Alignment and Degradation-Robust Fusion [63.87313550399871]
画像強調共同深度推定法は、頑健な知覚に相補的なモダリティを利用するが、一般化可能性の課題に直面している。自己監督型転送(PST)と周波数デカップリング型フュージョンモジュール(FreDF)を提案する。 PSTは、画像基礎モデルと潜在空間アライメントによるクロスモーダルな知識伝達を確立する。 FreDFは、低周波構造成分から高周波エッジ特性を明示的に分離し、モード比周波数ミスマッチを解消する。
論文参考訳（メタデータ） (2025-03-25T15:04:53Z)
Fraesormer: Learning Adaptive Sparse Transformer for Efficient Food Recognition [9.83509397800422]
2つのコア設計を持つ適応的で効率的なスパーストランスフォーマーアーキテクチャ (Fraesormer) を提案する。 ATK-SPAは学習可能なGated Dynamic Top-K Operator (GDTKO)を使用して重要な注意点を保持する。 HSSFGNはマルチスケールの特徴表現を実現するためにゲーティング機構を採用している。
論文参考訳（メタデータ） (2025-03-15T05:13:26Z)
Retain, Blend, and Exchange: A Quality-aware Spatial-Stereo Fusion Approach for Event Stream Recognition [57.74076383449153]
本稿では,差分融合によるイベントストリームに基づくパターン認識のための新しいデュアルストリームフレームワークEFV++を提案する。イベントイメージとイベントボクセルという2つの共通のイベント表現を同時にモデル化する。 Bullying10kデータセットで新しい最先端のパフォーマンス、すなわち90.51%$を達成し、2位を+2.21%$で上回る。
論文参考訳（メタデータ） (2024-06-27T02:32:46Z)
Speech-driven Personalized Gesture Synthetics: Harnessing Automatic Fuzzy Feature Inference [5.711221299998126]
Persona-Gestorは、高度にパーソナライズされた3Dフルボディジェスチャーを生成するように設計された、新しいエンドツーエンド生成モデルである。このモデルはファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)変換器拡散アーキテクチャを組み合わせたものである。 Persona-Gestorはシステムのユーザビリティと一般化機能を改善する。
論文参考訳（メタデータ） (2024-03-16T04:40:10Z)
RAVEN: Rethinking Adversarial Video Generation with Efficient Tri-plane Networks [93.18404922542702]
本稿では,長期的空間的および時間的依存関係に対処する新しいビデオ生成モデルを提案する。提案手法は,3次元認識型生成フレームワークにインスパイアされた,明示的で単純化された3次元平面のハイブリッド表現を取り入れたものである。我々のモデルは高精細度ビデオクリップを解像度256時間256$ピクセルで合成し、フレームレート30fpsで5ドル以上まで持続する。
論文参考訳（メタデータ） (2024-01-11T16:48:44Z)
Learning Neural Duplex Radiance Fields for Real-Time View Synthesis [33.54507228895688]
本研究では,NeRFを高効率メッシュベースニューラル表現に蒸留・焼成する手法を提案する。提案手法の有効性と優位性を,各種標準データセットの広範な実験を通じて実証する。
論文参考訳（メタデータ） (2023-04-20T17:59:52Z)
You Can Ground Earlier than See: An Effective and Efficient Pipeline for Temporal Sentence Grounding in Compressed Videos [56.676761067861236]
ビデオがトリミングされていない場合、時間的文のグラウンド化は、文問合せに従って目的のモーメントを意味的に見つけることを目的としている。それまでの優れた作品は、かなり成功したが、それらはデコードされたフレームから抽出されたハイレベルな視覚的特徴にのみ焦点を当てている。本稿では,圧縮された映像を直接視覚入力として利用する,圧縮された領域のTSGを提案する。
論文参考訳（メタデータ） (2023-03-14T12:53:27Z)
Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文参考訳（メタデータ） (2022-10-13T08:15:08Z)
Multi-Scale Hourglass Hierarchical Fusion Network for Single Image Deraining [8.964751500091005]
雨のひもはサイズ、方向および密度で頻繁に変わる深刻なぼやけおよび視覚質の低下をもたらします。現在のCNN方式は, 降雨特性の描写や, 可視性に乏しい環境下でのイメージの復元に限られている。本稿では,マルチスケール抽出,階層蒸留,情報集約による雨天の特徴を正確に把握するために,マルチスケールのHH2F-Netを提案する。
論文参考訳（メタデータ） (2021-04-25T08:27:01Z)
TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文参考訳（メタデータ） (2021-04-02T01:42:01Z)
Multi-Model Learning for Real-Time Automotive Semantic Foggy Scene Understanding via Domain Adaptation [17.530091734327296]
本研究では,霧の多い気象条件にロバストな自動車意味理解手法を提案する。提案手法では,RGB色,深度,輝度の画像を密接な接続性を持つ異なるエンコーダに組み込む。我々のモデルは、モデル全体の複雑さのごく一部で、現代のアプローチに匹敵する性能を達成する。
論文参考訳（メタデータ） (2020-12-09T21:04:05Z)
Lightweight Single-Image Super-Resolution Network with Attentive Auxiliary Feature Learning [73.75457731689858]
本稿では,SISR の注意補助機能 (A$2$F) に基づく計算効率が高く正確なネットワークを構築した。大規模データセットを用いた実験結果から,提案手法の有効性が示された。
論文参考訳（メタデータ） (2020-11-13T06:01:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。