論文の概要: Human View Synthesis using a Single Sparse RGB-D Input
- arxiv url: http://arxiv.org/abs/2112.13889v1
- Date: Mon, 27 Dec 2021 20:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-30 16:10:00.448440
- Title: Human View Synthesis using a Single Sparse RGB-D Input
- Title(参考訳): 単一スパースrgb-d入力によるヒューマンビュー合成
- Authors: Phong Nguyen, Nikolaos Sarafianos, Christoph Lassner, Janne Heikkila,
Tony Tung
- Abstract要約: 本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
- 参考スコア(独自算出の注目度): 16.764379184593256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Novel view synthesis for humans in motion is a challenging computer vision
problem that enables applications such as free-viewpoint video. Existing
methods typically use complex setups with multiple input views, 3D supervision,
or pre-trained models that do not generalize well to new identities. Aiming to
address these limitations, we present a novel view synthesis framework to
generate realistic renders from unseen views of any human captured from a
single-view sensor with sparse RGB-D, similar to a low-cost depth camera, and
without actor-specific models. We propose an architecture to learn dense
features in novel views obtained by sphere-based neural rendering, and create
complete renders using a global context inpainting model. Additionally, an
enhancer network leverages the overall fidelity, even in occluded areas from
the original view, producing crisp renders with fine details. We show our
method generates high-quality novel views of synthetic and real human actors
given a single sparse RGB-D input. It generalizes to unseen identities, new
poses and faithfully reconstructs facial expressions. Our approach outperforms
prior human view synthesis methods and is robust to different levels of input
sparsity.
- Abstract(参考訳): 動き中の人間の新しいビュー合成は、自由視点ビデオのような応用を可能にするコンピュータビジョンの問題である。
既存のメソッドは通常、複数の入力ビュー、3d監督、あるいは新しいアイデンティティーにうまく一般化しない事前学習されたモデルを持つ複雑なセットアップを使用する。
これらの制約に対処するために,低解像度の深度カメラやアクター固有のモデルを用いない,低解像度のRGB-Dの単一ビューセンサから撮影した人間をリアルにレンダリングするビュー合成フレームワークを提案する。
本研究では,球面型ニューラルレンダリングによって得られた新しいビューの密集した特徴を学習し,グローバルコンテキストインパインティングモデルを用いて完全なレンダリングを作成するアーキテクチャを提案する。
さらに、エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
提案手法は,rgb-d入力の少ない合成・実演者の高画質な斬新な映像を生成する。
身元不明、新しいポーズ、忠実に表情を再構築するために一般化される。
提案手法は,従来の人間の視点合成法よりも優れており,異なるレベルの入力スパーシティに頑健である。
関連論文リスト
- Cafca: High-quality Novel View Synthesis of Expressive Faces from Casual Few-shot Captures [33.463245327698]
人間の顔に先立って,高忠実度表現型顔のモデリングが可能な新しい容積を提示する。
我々は3D Morphable Face Modelを活用して大規模なトレーニングセットを合成し、それぞれのアイデンティティを異なる表現でレンダリングする。
次に、この合成データセットに先立って条件付きニューラルレージアンスフィールドをトレーニングし、推論時に、モデルを1つの被験者の非常にスパースな実画像のセットで微調整する。
論文 参考訳(メタデータ) (2024-10-01T12:24:50Z) - InceptionHuman: Controllable Prompt-to-NeRF for Photorealistic 3D Human Generation [61.62346472443454]
InceptionHumanは、異なるモードのプロンプトの組み合わせで簡単にコントロールでき、フォトリアリスティックな3D人間を生成することができるプロンプト・トゥ・NeRFフレームワークである。
InceptionHumanは、徐々に洗練されたNeRF空間内で、一貫した3Dヒューマン生成を実現する。
論文 参考訳(メタデータ) (2023-11-27T15:49:41Z) - GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis [1.6574413179773757]
GenLayNeRFは、複数の被写体の自由視点レンダリングのための一般化可能な階層化シーン表現である。
シーンを3Dボディーメッシュに固定されたマルチヒューマン層に分割する。
我々は、相関関係と融合関係にある点的画像整列と人間的アンチョレッド特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-20T20:37:31Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - SHERF: Generalizable Human NeRF from a Single Image [59.10589479808622]
SHERFは、単一の入力画像からアニマタブルな3D人間を復元するための、最初の一般化可能なヒトNeRFモデルである。
本稿では,情報符号化を容易にするために,グローバル,ポイントレベル,ピクセルアライン機能など3D対応の階層的特徴バンクを提案する。
論文 参考訳(メタデータ) (2023-03-22T17:59:12Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Human Pose Manipulation and Novel View Synthesis using Differentiable
Rendering [46.04980667824064]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2021-11-24T19:00:07Z) - Neural Body: Implicit Neural Representations with Structured Latent
Codes for Novel View Synthesis of Dynamic Humans [56.63912568777483]
本稿では,人間の演奏者に対する新しい視点合成の課題について,カメラビューの少なさから考察する。
異なるフレームで学習されたニューラルネットワーク表現が、変形可能なメッシュにアンカーされた同じ遅延コードセットを共有することを前提とした新しい人体表現であるNeural Bodyを提案する。
ZJU-MoCapの実験により、我々の手法は、新規なビュー合成品質において、先行研究よりも優れた性能を示した。
論文 参考訳(メタデータ) (2020-12-31T18:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。