論文の概要: Representing Animatable Avatar via Factorized Neural Fields
- arxiv url: http://arxiv.org/abs/2406.00637v1
- Date: Sun, 2 Jun 2024 06:45:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-06 04:06:06.968683
- Title: Representing Animatable Avatar via Factorized Neural Fields
- Title(参考訳): 因子化ニューラルネットワークによるアニマタブルアバターの表現
- Authors: Chunjin Song, Zhijie Wu, Bastian Wandt, Leonid Sigal, Helge Rhodin,
- Abstract要約: フレーム毎のレンダリング結果は、フレームの一貫性を促進するために、ポーズ非依存のコンポーネントと対応するポーズ依存のコンポーネントに分解することができる。
入力ビデオ全体の粗い体輪郭のコヒーレントな保存を実現する。
我々のネットワークは、高周波の詳細を保存し、一貫した体輪郭を確保するために、NeRF(Near Radiance Field)に基づく最先端の手法を超越している。
- 参考スコア(独自算出の注目度): 39.95141875395775
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: For reconstructing high-fidelity human 3D models from monocular videos, it is crucial to maintain consistent large-scale body shapes along with finely matched subtle wrinkles. This paper explores the observation that the per-frame rendering results can be factorized into a pose-independent component and a corresponding pose-dependent equivalent to facilitate frame consistency. Pose adaptive textures can be further improved by restricting frequency bands of these two components. In detail, pose-independent outputs are expected to be low-frequency, while highfrequency information is linked to pose-dependent factors. We achieve a coherent preservation of both coarse body contours across the entire input video and finegrained texture features that are time variant with a dual-branch network with distinct frequency components. The first branch takes coordinates in canonical space as input, while the second branch additionally considers features outputted by the first branch and pose information of each frame. Our network integrates the information predicted by both branches and utilizes volume rendering to generate photo-realistic 3D human images. Through experiments, we demonstrate that our network surpasses the neural radiance fields (NeRF) based state-of-the-art methods in preserving high-frequency details and ensuring consistent body contours.
- Abstract(参考訳): 高忠実度人間の3Dモデルをモノクロビデオから再構築するためには、微妙にマッチしたしわとともに、一貫した大体形状を維持することが不可欠である。
本稿では,フレーム毎のレンダリング結果が,フレームの一貫性を高めるために,ポーズ非依存のコンポーネントとそれに対応するポーズ依存のコンポーネントに分解できることを考察する。
これら2つの成分の周波数帯域を制限することにより、ポース適応テクスチャをさらに改善することができる。
詳しくは、ポーズ非依存出力は低周波であることが期待され、高周波情報はポーズ依存因子に関連付けられる。
我々は、入力ビデオ全体にわたる粗い体輪郭のコヒーレントな保存と、異なる周波数成分を持つデュアルブランチネットワークの時間変化であるきめ細かなテクスチャ特性を実現する。
第1のブランチは、標準空間内の座標を入力とし、第2のブランチは、第1のブランチによって出力された特徴を付加的に考慮し、各フレームの情報をポーズする。
我々のネットワークは、両方の枝によって予測される情報を統合し、ボリュームレンダリングを利用して、フォトリアリスティックな3D画像を生成する。
実験により、我々のネットワークは、高周波の詳細を保存し、一貫した体輪郭を確保するために、NeRF(Near Radiance Field)に基づく最先端の手法を超越していることが実証された。
関連論文リスト
- SkelFormer: Markerless 3D Pose and Shape Estimation using Skeletal Transformers [57.46911575980854]
マルチビュー人間のポーズと形状推定のための新しいマーカーレスモーションキャプチャパイプラインであるSkelFormerを紹介する。
提案手法は,まず市販の2次元キーポイント推定器を用いて,大規模インザミルドデータに基づいて事前トレーニングを行い,3次元関節位置を求める。
次に、重雑音観測から、関節の位置をポーズと形状の表現にマッピングする回帰に基づく逆運動性骨格変換器を設計する。
論文 参考訳(メタデータ) (2024-04-19T04:51:18Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - Pose Modulated Avatars from Video [22.395774558845336]
周波数領域において適応的かつ明示的な2分岐ニューラルネットワークを開発する。
最初のブランチは、体の部分間の相関を局所的にモデル化するグラフニューラルネットワークである。
第2のブランチは、これらの相関特徴を大域周波数のセットと組み合わせて、特徴符号化を変調する。
論文 参考訳(メタデータ) (2023-08-23T06:49:07Z) - Vision Transformer for NeRF-Based View Synthesis from a Single Input
Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。
新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。
提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文 参考訳(メタデータ) (2022-07-12T17:52:04Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Shelf-Supervised Mesh Prediction in the Wild [54.01373263260449]
本研究では,物体の3次元形状とポーズを1つの画像から推定する学習手法を提案する。
まず、カメラのポーズとともに、標準フレーム内の体積表現を推定する。
粗い体積予測はメッシュベースの表現に変換され、予測されたカメラフレームでさらに洗練される。
論文 参考訳(メタデータ) (2021-02-11T18:57:10Z) - Emergent Properties of Foveated Perceptual Systems [3.3504365823045044]
この研究は、周囲の視線とテクスチャのようなエンコーディングの中心において、より高い明度を持つ、織り成された人間の視覚システムにインスパイアされている。
本稿では,第1段のテクティット固定画像変換と第2段のテクティット学習可能な畳み込みニューラルネットワークを用いたモデルを提案する。
周辺テクスチャベースの計算によるファベーションにより、シーン情報の効率的で明瞭でロバストな表現形式が得られます。
論文 参考訳(メタデータ) (2020-06-14T19:34:44Z) - Identity Enhanced Residual Image Denoising [61.75610647978973]
我々は、アイデンティティマッピングモジュールのチェーンと、画像の復号化のための残像アーキテクチャの残像からなる、完全な畳み込みネットワークモデルを学ぶ。
提案するネットワークは,従来の最先端・CNNアルゴリズムよりも極めて高い数値精度と画像品質を実現している。
論文 参考訳(メタデータ) (2020-04-26T04:52:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。