論文の概要: Real-time 3D-aware Portrait Video Relighting
- arxiv url: http://arxiv.org/abs/2410.18355v1
- Date: Thu, 24 Oct 2024 01:34:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 16:43:28.227495
- Title: Real-time 3D-aware Portrait Video Relighting
- Title(参考訳): リアルタイム3D対応画像リライティング
- Authors: Ziqi Cai, Kaiwen Jiang, Shu-Yu Chen, Yu-Kun Lai, Hongbo Fu, Boxin Shi, Lin Gao,
- Abstract要約: ニューラル・ラジアンス・フィールド(NeRF)を応用した3次元映像の映像再生のための3D認識方式を提案する。
我々は、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
- 参考スコア(独自算出の注目度): 89.41078798641732
- License:
- Abstract: Synthesizing realistic videos of talking faces under custom lighting conditions and viewing angles benefits various downstream applications like video conferencing. However, most existing relighting methods are either time-consuming or unable to adjust the viewpoints. In this paper, we present the first real-time 3D-aware method for relighting in-the-wild videos of talking faces based on Neural Radiance Fields (NeRF). Given an input portrait video, our method can synthesize talking faces under both novel views and novel lighting conditions with a photo-realistic and disentangled 3D representation. Specifically, we infer an albedo tri-plane, as well as a shading tri-plane based on a desired lighting condition for each video frame with fast dual-encoders. We also leverage a temporal consistency network to ensure smooth transitions and reduce flickering artifacts. Our method runs at 32.98 fps on consumer-level hardware and achieves state-of-the-art results in terms of reconstruction quality, lighting error, lighting instability, temporal consistency and inference speed. We demonstrate the effectiveness and interactivity of our method on various portrait videos with diverse lighting and viewing conditions.
- Abstract(参考訳): カスタム照明条件下での会話のリアルなビデオの合成と視聴角は、ビデオ会議のような下流の様々なアプリケーションに効果がある。
しかし、既存のリライト手法のほとんどは、時間を要するか、視点を調整できないかのいずれかである。
本稿では,Neural Radiance Fields (NeRF) をベースとした3D認識方式を提案する。
入力されたポートレート映像から、新しいビューと新しい照明条件の両方の下で、フォトリアリスティックな3D表現と非交叉な3D表現を合成することができる。
具体的には、高速なデュアルエンコーダを備えたビデオフレーム毎に所望の照明条件に基づいて、アルベド三面体とシェーディング三面体を推定する。
また、時相整合性ネットワークを活用して、スムーズな遷移を保証し、フィッカリングアーティファクトを削減します。
本手法は, 消費者レベルのハードウェア上で32.98fpsで動作し, 再現性, 照明誤差, 照明不安定性, 時間的整合性, 推論速度の両面から最新の結果が得られる。
本手法の有効性と相互作用性を,様々な照明条件と視聴条件の異なる様々なポートレートビデオに示す。
関連論文リスト
- Sun Off, Lights On: Photorealistic Monocular Nighttime Simulation for Robust Semantic Perception [53.631644875171595]
夜間のシーンは、学習したモデルで意味的に知覚し、人間に注釈を付けるのは難しい。
本手法は,1枚の画像の夜間シミュレーションを3Dで行う方法として,サンオフ,ライトオン (SOLO) と命名された。
夜間画像の視覚的品質と光リアリズムは,拡散モデルを含む競合するアプローチよりも優れているだけでなく,従来の画像は,昼夜適応における意味的夜間セグメンテーションに有益であることが証明されている。
論文 参考訳(メタデータ) (2024-07-29T18:00:09Z) - Lite2Relight: 3D-aware Single Image Portrait Relighting [87.62069509622226]
Lite2Relightは、肖像画の3D一貫性のある頭部ポーズを予測できる新しいテクニックだ。
事前学習した幾何認識エンコーダと特徴アライメントモジュールを利用することで、入力画像を3D空間にマッピングする。
これには、髪、目、表情を含むフルヘッドの3D一貫性のある結果が含まれる。
論文 参考訳(メタデータ) (2024-07-15T07:16:11Z) - Personalized Video Relighting With an At-Home Light Stage [0.0]
我々は,高品質で時間的に一貫した映像をリアルタイムに生成するパーソナライズされたビデオリライティングアルゴリズムを開発した。
モニタでYouTubeビデオを見ているユーザの録画をキャプチャすることで、任意の条件下で高品質なリライティングを行うことのできるパーソナライズされたアルゴリズムをトレーニングできることを示す。
論文 参考訳(メタデータ) (2023-11-15T10:33:20Z) - ReliTalk: Relightable Talking Portrait Generation from a Single Video [62.47116237654984]
ReliTalkは、モノクロビデオから再生可能なオーディオ駆動型音声ポートレート生成のための新しいフレームワークである。
我々の重要な洞察は、ポートレートの反射を暗黙的に学習された音声駆動の顔の正常と画像から分解することである。
論文 参考訳(メタデータ) (2023-09-05T17:59:42Z) - 3D Gaussian Splatting for Real-Time Radiance Field Rendering [4.320393382724066]
競争力のあるトレーニング時間を維持しながら、最先端の視覚的品質を達成するための3つの重要な要素を紹介します。
いくつかの確立したデータセット上で、最先端の視覚的品質とリアルタイムレンダリングを実証する。
論文 参考訳(メタデータ) (2023-08-08T06:37:06Z) - Physically-Based Editing of Indoor Scene Lighting from a Single Image [106.60252793395104]
本研究では,1つの画像から複雑な室内照明を推定深度と光源セグメンテーションマスクで編集する手法を提案する。
1)シーン反射率とパラメトリックな3D照明を推定する全体的シーン再構成法,2)予測からシーンを再レンダリングするニューラルレンダリングフレームワーク,である。
論文 参考訳(メタデータ) (2022-05-19T06:44:37Z) - Deep 3D Mask Volume for View Synthesis of Dynamic Scenes [49.45028543279115]
120FPSのカスタム10カメラリグでキャプチャしたマルチビュービデオデータセットを提案する。
データセットには、屋外シーンにおけるさまざまな視覚効果と人間の相互作用を示す96の高品質なシーンが含まれている。
我々は,静的カメラで捉えた動的シーンの双眼映像から時間的に安定な視線外挿を可能にする新しいアルゴリズムであるDeep 3D Mask Volumeを開発した。
論文 参考訳(メタデータ) (2021-08-30T17:55:28Z) - LipSync3D: Data-Efficient Learning of Personalized 3D Talking Faces from
Video using Pose and Lighting Normalization [4.43316916502814]
音声からパーソナライズされた3D音声をアニメーションするビデオベースの学習フレームワークを提案する。
データサンプルの効率を大幅に改善する2つのトレーニング時間データ正規化を導入する。
提案手法は,現在最先端のオーディオ駆動型ビデオ再現ベンチマークを,リアリズム,リップシンク,視覚的品質スコアの点で上回っている。
論文 参考訳(メタデータ) (2021-06-08T08:56:40Z) - Relightable 3D Head Portraits from a Smartphone Video [15.639140551193073]
本稿では,人間の頭部の3D像を再現するシステムを提案する。
私たちのニューラルパイプラインは、スマートフォンのカメラがフラッシュ点滅で撮影したフレームのシーケンスで動作します。
ディープレンダリングネットワークは、任意の新しい視点のために密なアルベド、ノーマル、環境照明マップを後退させるように訓練される。
論文 参考訳(メタデータ) (2020-12-17T22:49:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。