論文の概要: GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis
- arxiv url: http://arxiv.org/abs/2309.11627v1
- Date: Wed, 20 Sep 2023 20:37:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-22 17:41:41.166255
- Title: GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis
- Title(参考訳): GenLayNeRF:多視点合成のための3次元モデルアライメント付き一般化可能な層表現
- Authors: Youssef Abdelkareem, Shady Shehata, Fakhri Karray
- Abstract要約: GenLayNeRFは、複数の被写体の自由視点レンダリングのための一般化可能な階層化シーン表現である。
シーンを3Dボディーメッシュに固定されたマルチヒューマン層に分割する。
我々は、相関関係と融合関係にある点的画像整列と人間的アンチョレッド特徴を抽出する。
- 参考スコア(独自算出の注目度): 1.6574413179773757
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Novel view synthesis (NVS) of multi-human scenes imposes challenges due to
the complex inter-human occlusions. Layered representations handle the
complexities by dividing the scene into multi-layered radiance fields, however,
they are mainly constrained to per-scene optimization making them inefficient.
Generalizable human view synthesis methods combine the pre-fitted 3D human
meshes with image features to reach generalization, yet they are mainly
designed to operate on single-human scenes. Another drawback is the reliance on
multi-step optimization techniques for parametric pre-fitting of the 3D body
models that suffer from misalignment with the images in sparse view settings
causing hallucinations in synthesized views. In this work, we propose,
GenLayNeRF, a generalizable layered scene representation for free-viewpoint
rendering of multiple human subjects which requires no per-scene optimization
and very sparse views as input. We divide the scene into multi-human layers
anchored by the 3D body meshes. We then ensure pixel-level alignment of the
body models with the input views through a novel end-to-end trainable module
that carries out iterative parametric correction coupled with multi-view
feature fusion to produce aligned 3D models. For NVS, we extract point-wise
image-aligned and human-anchored features which are correlated and fused using
self-attention and cross-attention modules. We augment low-level RGB values
into the features with an attention-based RGB fusion module. To evaluate our
approach, we construct two multi-human view synthesis datasets; DeepMultiSyn
and ZJU-MultiHuman. The results indicate that our proposed approach outperforms
generalizable and non-human per-scene NeRF methods while performing at par with
layered per-scene methods without test time optimization.
- Abstract(参考訳): マルチヒューマンシーンの新しいビュー合成(NVS)は、複雑な人間間閉塞による課題を課している。
階層表現は、シーンを多層ラミアンスフィールドに分割することで複雑度を処理するが、それらは主にシーンごとの最適化によって非効率に制限される。
一般化可能な人間の視線合成法は、事前に適合した3次元メッシュと画像特徴を組み合わせて一般化するが、主に単体シーンで動作するように設計されている。
もう1つの欠点は、合成された視点で幻覚を引き起こすスパースビュー設定で画像と不一致に苦しむ3dボディモデルのパラメトリックプリフィッティングのためのマルチステップ最適化技術への依存である。
本稿では,シーンごとの最適化を必要とせず,非常にスパースなビューを入力として必要とする,複数の被験者の自由視点レンダリングのための一般化可能な階層化シーン表現GenLayNeRFを提案する。
3dボディメッシュで固定されたマルチヒューマンレイヤーにシーンを分割する。
次に,多視点特徴融合と組み合わせた反復的パラメトリック補正を行い,協調した3次元モデルを生成する,新しいエンドツーエンドのトレーニング可能なモジュールによって,ボディモデルの画素レベルのアライメントを確保する。
NVSでは,自己注意モジュールとクロスアテンションモジュールを用いて相関して融合する特徴を抽出する。
低レベルのRGB値を注目ベースのRGB融合モジュールで機能に拡張する。
提案手法を評価するために,DeepMultiSynとZJU-MultiHumanという2つのマルチヒューマンビュー合成データセットを構築した。
その結果,提案手法は,テスト時間最適化を伴わない階層化手法と同等に動作しながら,一般化可能かつ非人為的NeRF法よりも優れていた。
関連論文リスト
- GPS-Gaussian+: Generalizable Pixel-wise 3D Gaussian Splatting for Real-Time Human-Scene Rendering from Sparse Views [67.34073368933814]
スパースビューカメラ設定下での高解像度画像レンダリングのための一般化可能なガウススプラッティング手法を提案する。
我々は,人間のみのデータや人景データに基づいてガウスパラメータ回帰モジュールをトレーニングし,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。
いくつかのデータセットに対する実験により、我々の手法はレンダリング速度を超越しながら最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-11-18T08:18:44Z) - WE-GS: An In-the-wild Efficient 3D Gaussian Representation for Unconstrained Photo Collections [8.261637198675151]
制約のない写真コレクションからの新規ビュー合成(NVS)は、コンピュータグラフィックスでは困難である。
写真コレクションからのシーン再構築のための効率的なポイントベース微分可能レンダリングフレームワークを提案する。
提案手法は、新しいビューのレンダリング品質と、高収束・レンダリング速度の外観合成において、既存のアプローチよりも優れている。
論文 参考訳(メタデータ) (2024-06-04T15:17:37Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - GM-NeRF: Learning Generalizable Model-based Neural Radiance Fields from
Multi-view Images [79.39247661907397]
本稿では,自由視点画像の合成に有効なフレームワークであるGeneralizable Model-based Neural Radiance Fieldsを提案する。
具体的には、多視点2D画像からの出現コードを幾何学的プロキシに登録するための幾何学誘導型アテンション機構を提案する。
論文 参考訳(メタデータ) (2023-03-24T03:32:02Z) - Multi-Plane Neural Radiance Fields for Novel View Synthesis [5.478764356647437]
新しいビュー合成は、新しいカメラの視点からシーンのフレームを描画する、長年にわたる問題である。
本研究では, 単面多面体ニューラル放射場の性能, 一般化, 効率について検討する。
合成結果の改善と視聴範囲の拡大のために,複数のビューを受理する新しい多面体NeRFアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-03-03T06:32:55Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。