論文の概要: Learning to Deblur and Rotate Motion-Blurred Faces
- arxiv url: http://arxiv.org/abs/2112.07599v1
- Date: Tue, 14 Dec 2021 17:51:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 15:21:07.725436
- Title: Learning to Deblur and Rotate Motion-Blurred Faces
- Title(参考訳): 浮き顔の脱毛と回転の学習
- Authors: Givi Meishvili, Attila Szab\'o, Simon Jenni, Paolo Favaro
- Abstract要約: ニューラルネットワークを用いて、1つの画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、推定視線に対するカメラ視点と、エンコーダデコーダネットワークに入力されるぼやけた画像とを比較し、新しいカメラ視点でシャープフレームのビデオを生成する。
- 参考スコア(独自算出の注目度): 43.673660541417995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a solution to the novel task of rendering sharp videos from new
viewpoints from a single motion-blurred image of a face. Our method handles the
complexity of face blur by implicitly learning the geometry and motion of faces
through the joint training on three large datasets: FFHQ and 300VW, which are
publicly available, and a new Bern Multi-View Face Dataset (BMFD) that we
built. The first two datasets provide a large variety of faces and allow our
model to generalize better. BMFD instead allows us to introduce multi-view
constraints, which are crucial to synthesizing sharp videos from a new camera
view. It consists of high frame rate synchronized videos from multiple views of
several subjects displaying a wide range of facial expressions. We use the high
frame rate videos to simulate realistic motion blur through averaging. Thanks
to this dataset, we train a neural network to reconstruct a 3D video
representation from a single image and the corresponding face gaze. We then
provide a camera viewpoint relative to the estimated gaze and the blurry image
as input to an encoder-decoder network to generate a video of sharp frames with
a novel camera viewpoint. We demonstrate our approach on test subjects of our
multi-view dataset and VIDTIMIT.
- Abstract(参考訳): 顔の1つの動画像から新しい視点からシャープな映像を描画する新たな課題に対する解決法を提案する。
提案手法は,3つの大規模データセット(FFHQと300VW)と,新たに構築したBern Multi-View Face Dataset(BMFD)という,共同トレーニングを通じて顔の形状と動きを暗黙的に学習することで,顔のぼやけの複雑性を処理する。
最初の2つのデータセットは多種多様な顔を提供し、我々のモデルはより一般化できる。
BMFDは、新しいカメラビューからシャープなビデオを合成するのに重要なマルチビュー制約を導入することができます。
さまざまな表情を示す複数の被験者の複数の視点からの高フレームレート同期ビデオで構成されている。
高フレームレートビデオを用いて、平均的な動きのぼかしをシミュレートする。
このデータセットにより、ニューラルネットワークをトレーニングし、単一の画像と対応する顔の視線から3Dビデオ表現を再構成する。
次に、エンコーダ・デコーダネットワークへの入力として、推定された視線やぼやけた画像に対するカメラ視点を提供し、新しいカメラ視点でシャープフレームの映像を生成する。
我々は,マルチビューデータセットとvidtimitのテスト対象に対するアプローチを実証する。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Flex3D: Feed-Forward 3D Generation With Flexible Reconstruction Model And Input View Curation [61.040832373015014]
テキスト, 単一画像, スパース画像から高品質な3Dコンテンツを生成するための新しいフレームワークFlex3Dを提案する。
我々は、微調整された多視点画像拡散モデルとビデオ拡散モデルを用いて、候補視のプールを生成し、ターゲット3Dオブジェクトのリッチな表現を可能にする。
第2段階では、キュレートされたビューは、任意の数の入力を効果的に処理できるトランスフォーマーアーキテクチャ上に構築されたフレキシブルリコンストラクションモデル(FlexRM)に入力されます。
論文 参考訳(メタデータ) (2024-10-01T17:29:43Z) - MV2MAE: Multi-View Video Masked Autoencoders [33.61642891911761]
本稿では,同期型マルチビュービデオから自己教師付き学習を行う手法を提案する。
モデルに幾何情報を注入するために、クロスビュー再構成タスクを使用する。
我々のアプローチは、マスク付きオートエンコーダ(MAE)フレームワークに基づいている。
論文 参考訳(メタデータ) (2024-01-29T05:58:23Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z) - DrivingDiffusion: Layout-Guided multi-view driving scene video
generation with latent diffusion model [19.288610627281102]
3次元レイアウトで制御されたリアルなマルチビュービデオを生成するために、DrivingDiffusionを提案する。
我々のモデルは複雑な都市のシーンで大規模でリアルなマルチカメラ駆動ビデオを生成することができる。
論文 参考訳(メタデータ) (2023-10-11T18:00:08Z) - Diffusion-Guided Reconstruction of Everyday Hand-Object Interaction
Clips [38.02945794078731]
短いビデオクリップから手動物体のインタラクションを再構築する作業に取り組む。
提案手法は,映像ごとの3D推論を最適化し,物体形状のニューラルな3D表現を復元する。
我々は、エゴセントリックビデオに対する我々のアプローチを実証的に評価し、以前のシングルビュー法やマルチビュー法よりも大幅に改善されていることを観察した。
論文 参考訳(メタデータ) (2023-09-11T17:58:30Z) - MVTN: Learning Multi-View Transformations for 3D Understanding [60.15214023270087]
本稿では,3次元形状認識のための最適視点を決定するために,可変レンダリングを用いたマルチビュー変換ネットワーク(MVTN)を提案する。
MVTNは3次元形状認識のためのマルチビューネットワークでエンドツーエンドに訓練することができる。
提案手法は,複数のベンチマークによる3次元分類と形状検索における最先端性能を示す。
論文 参考訳(メタデータ) (2022-12-27T12:09:16Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - DeepFaceFlow: In-the-wild Dense 3D Facial Motion Estimation [56.56575063461169]
DeepFaceFlowは、3D非剛体顔の流れを推定するための堅牢で高速で高精度なフレームワークである。
私たちのフレームワークは、2つの非常に大規模な顔ビデオデータセットでトレーニングされ、テストされました。
登録された画像に対して,60fpsで3次元フローマップを生成する。
論文 参考訳(メタデータ) (2020-05-14T23:56:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。