論文の概要: Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic
Images in Facial Capture Pipelines
- arxiv url: http://arxiv.org/abs/2204.10746v1
- Date: Fri, 22 Apr 2022 15:09:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 16:18:04.692274
- Title: Leveraging Deepfakes to Close the Domain Gap between Real and Synthetic
Images in Facial Capture Pipelines
- Title(参考訳): 顔認識パイプラインにおけるディープフェイクを活用した実画像と合成画像のドメインギャップの閉鎖
- Authors: Winnie Lin, Yilin Zhu, Demi Guo, Ron Fedkiw
- Abstract要約: 我々は、パーソナライズされたアプリ内ビデオデータから3次元顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。
本稿では,従来のコンピュータグラフィックスパイプラインにおける衝突アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。
我々は、前述の技術を活用して、現実の地上真実データの必要性を回避するために、モーションキャプチャ回帰器のトレーニング方法を概説する。
- 参考スコア(独自算出の注目度): 8.366597450893456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose an end-to-end pipeline for both building and tracking 3D facial
models from personalized in-the-wild (cellphone, webcam, youtube clips, etc.)
video data. First, we present a method for automatic data curation and
retrieval based on a hierarchical clustering framework typical of collision
detection algorithms in traditional computer graphics pipelines. Subsequently,
we utilize synthetic turntables and leverage deepfake technology in order to
build a synthetic multi-view stereo pipeline for appearance capture that is
robust to imperfect synthetic geometry and image misalignment. The resulting
model is fit with an animation rig, which is then used to track facial
performances. Notably, our novel use of deepfake technology enables us to
perform robust tracking of in-the-wild data using differentiable renderers
despite a significant synthetic-to-real domain gap. Finally, we outline how we
train a motion capture regressor, leveraging the aforementioned techniques to
avoid the need for real-world ground truth data and/or a high-end calibrated
camera capture setup.
- Abstract(参考訳): 携帯電話、ウェブカメラ、youtubeクリップ等)のビデオデータから3d顔モデルを構築し、追跡するためのエンドツーエンドパイプラインを提案する。
まず,従来のコンピュータグラフィックスパイプラインにおける衝突検出アルゴリズムに典型的な階層的クラスタリングフレームワークに基づく自動データキュレーションと検索手法を提案する。
その後,合成ターンテーブルを利用し,合成形状や画像の不整合に頑健な外観キャプチャのための合成多視点ステレオパイプラインを構築するためにディープフェイク技術を利用する。
結果のモデルはアニメーションリグに適合し、顔のパフォーマンスを追跡するのに使用される。
特に,我々はdeepfakeテクノロジを新規に使用することで,合成と実領域のギャップが大きいにもかかわらず,微分可能レンダラを用いた実データのロバストなトラッキングを可能にした。
最後に,モーションキャプチャレグレッサーの訓練方法について概説し,実世界の地上データや高度のカメラキャプチャ設定の必要性を回避するために,前述の手法を活用した。
関連論文リスト
- Unsupervised Traffic Scene Generation with Synthetic 3D Scene Graphs [83.9783063609389]
本稿では,ドメイン不変シーン表現に基づくトラフィックシーンの画像をレンダリングせずに直接合成する手法を提案する。
具体的には、内部表現として合成シーングラフに依存し、現実的な交通シーン合成のための教師なしニューラルネットワークアーキテクチャを導入する。
論文 参考訳(メタデータ) (2023-03-15T09:26:29Z) - Towards Real-World Video Deblurring by Exploring Blur Formation Process [53.91239555063343]
近年、深層学習に基づくアプローチは、ビデオデブロアリングタスクにおいて有望な成功を収めている。
既存の合成データセットで訓練されたモデルは、現実世界のぼやけたシナリオよりも一般化の問題に悩まされている。
本稿では, RAW-Blur と呼ばれる, ぼかし生成の手がかりを生かして, 現実的なぼかし合成パイプラインを提案する。
論文 参考訳(メタデータ) (2022-08-28T09:24:52Z) - Neural Scene Representation for Locomotion on Structured Terrain [56.48607865960868]
本研究では,都市環境を横断する移動ロボットの局所的な地形を再構築する学習手法を提案する。
搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。
ノイズ測定とカメラ配置の盲点からの大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。
論文 参考訳(メタデータ) (2022-06-16T10:45:17Z) - Hands-Up: Leveraging Synthetic Data for Hands-On-Wheel Detection [0.38233569758620045]
この研究は、ドライバモニタリングシステムのトレーニングに合成フォトリアリスティックインキャビンデータを使用することを実証する。
プラットフォームでエラー解析を行い、欠落したエッジケースを生成することで、パフォーマンスが向上することを示す。
これは、人間中心の合成データが現実世界にうまく一般化する能力を示している。
論文 参考訳(メタデータ) (2022-05-31T23:34:12Z) - Learning optical flow from still images [53.295332513139925]
我々は,容易に利用可能な単一の実画像から,高精度な光学的フローアノテーションを迅速かつ多量に生成するフレームワークを提案する。
既知の動きベクトルと回転角を持つ再構成された環境でカメラを仮想的に移動させる。
我々のデータでトレーニングすると、最先端の光フローネットワークは、実データを見るのに優れた一般化を実現する。
論文 参考訳(メタデータ) (2021-04-08T17:59:58Z) - Intrinsic Autoencoders for Joint Neural Rendering and Intrinsic Image
Decomposition [67.9464567157846]
合成3Dモデルからリアルな画像を生成するためのオートエンコーダを提案し,同時に実像を本質的な形状と外観特性に分解する。
実験により, レンダリングと分解の併用処理が有益であることが確認され, 画像から画像への翻訳の質的, 定量的なベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-06-29T12:53:58Z) - Stillleben: Realistic Scene Synthesis for Deep Learning in Robotics [33.30312206728974]
本稿では,シーン認識タスクの学習データを生成するための合成パイプラインについて述べる。
本手法は,物理シミュレーションを用いて,物体メッシュを物理的に現実的で密集したシーンに配置する。
私たちのパイプラインは、ディープニューラルネットワークのトレーニング中にオンラインで実行できます。
論文 参考訳(メタデータ) (2020-05-12T10:11:00Z) - Deep CG2Real: Synthetic-to-Real Translation via Image Disentanglement [78.58603635621591]
画像空間における未ペアの合成-現実翻訳ネットワークの訓練は、厳しい制約下にある。
画像の非交叉シェーディング層とアルベド層に作用する半教師付きアプローチを提案する。
私たちの2段階のパイプラインはまず、物理ベースのレンダリングをターゲットとして、教師付き方法で正確なシェーディングを予測することを学習します。
論文 参考訳(メタデータ) (2020-03-27T21:45:41Z) - Virtual to Real adaptation of Pedestrian Detectors [9.432150710329607]
ViPeDは、ビデオゲームGTA V - Grand Theft Auto Vのグラフィカルエンジンで収集された新しい合成画像セットである。
本稿では,歩行者検出作業に適した2つの異なる領域適応手法を提案する。
実験によると、ViPeDでトレーニングされたネットワークは、実世界のデータでトレーニングされた検出器よりも、目に見えない現実世界のシナリオを一般化できる。
論文 参考訳(メタデータ) (2020-01-09T14:50:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。