論文の概要: KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints
- arxiv url: http://arxiv.org/abs/2205.04992v1
- Date: Tue, 10 May 2022 15:57:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:43:58.998508
- Title: KeypointNeRF: Generalizing Image-based Volumetric Avatars using Relative
Spatial Encoding of Keypoints
- Title(参考訳): KeypointNeRF:キーポイントの相対空間符号化を用いた画像ベースボリュームアバターの一般化
- Authors: Marko Mihajlovic, Aayush Bansal, Michael Zollhoefer, Siyu Tang,
Shunsuke Saito
- Abstract要約: スパースビューから高忠実度体積アバターをモデル化するための高効率なアプローチを提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
実験の結果,先行作業における誤りの大部分は,空間符号化の不適切な選択に起因することがわかった。
- 参考スコア(独自算出の注目度): 28.234772596912165
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image-based volumetric avatars using pixel-aligned features promise
generalization to unseen poses and identities. Prior work leverages global
spatial encodings and multi-view geometric consistency to reduce spatial
ambiguity. However, global encodings often suffer from overfitting to the
distribution of the training data, and it is difficult to learn multi-view
consistent reconstruction from sparse views. In this work, we investigate
common issues with existing spatial encodings and propose a simple yet highly
effective approach to modeling high-fidelity volumetric avatars from sparse
views. One of the key ideas is to encode relative spatial 3D information via
sparse 3D keypoints. This approach is robust to the sparsity of viewpoints and
cross-dataset domain gap. Our approach outperforms state-of-the-art methods for
head reconstruction. On human body reconstruction for unseen subjects, we also
achieve performance comparable to prior work that uses a parametric human body
model and temporal feature aggregation. Our experiments show that a majority of
errors in prior work stem from an inappropriate choice of spatial encoding and
thus we suggest a new direction for high-fidelity image-based avatar modeling.
https://markomih.github.io/KeypointNeRF
- Abstract(参考訳): ピクセルアライメント機能を用いた画像ベースのボリュームアバターは、見えないポーズやアイデンティティへの一般化を約束する。
これまでの研究は、空間的曖昧さを減らすために、グローバルな空間符号化と多視点幾何学的整合性を活用していた。
しかし、グローバルエンコーディングはトレーニングデータの分布に過度に適合することが多く、スパースビューから多視点一貫した再構築を学ぶことは困難である。
本研究では,既存の空間エンコーディングに関する共通問題を調査し,比較的少ない視点から高忠実度ボリュームアバターをモデル化する手法を提案する。
鍵となるアイデアの1つは、スパース3Dキーポイントを介して相対空間の3D情報を符号化することである。
このアプローチは視点の幅とデータセット間のドメインギャップに対して堅牢です。
本手法は頭部再建の最先端手法より優れている。
視認できない被験者に対する人体再構成では、パラメトリックな人体モデルと時間的特徴集約を用いた先行作業に匹敵する性能を達成する。
先行研究における誤りの大部分は空間符号化の不適切な選択によるものであり,高忠実度画像に基づくアバターモデリングのための新たな方向性を提案する。
https://markomih.github.io/KeypointNeRF
関連論文リスト
- StackFLOW: Monocular Human-Object Reconstruction by Stacked Normalizing Flow with Offset [56.71580976007712]
本研究では,人間のメッシュと物体メッシュの表面から密にサンプリングされたアンカー間の人物体オフセットを用いて,人物体空間関係を表現することを提案する。
この表現に基づいて、画像から人・物間の空間関係の後方分布を推定するスタック正規化フロー(StackFLOW)を提案する。
最適化段階では、サンプルの可能性を最大化することにより、人体ポーズと物体6Dポーズを微調整する。
論文 参考訳(メタデータ) (2024-07-30T04:57:21Z) - Hyper-VolTran: Fast and Generalizable One-Shot Image to 3D Object
Structure via HyperNetworks [53.67497327319569]
画像から3Dまでを1つの視点から解く新しいニューラルレンダリング手法を提案する。
提案手法では, 符号付き距離関数を表面表現として使用し, 幾何エンコードボリュームとハイパーネットワークスによる一般化可能な事前処理を取り入れた。
本実験は,一貫した結果と高速な生成による提案手法の利点を示す。
論文 参考訳(メタデータ) (2023-12-24T08:42:37Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [40.10906393484584]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - HQ3DAvatar: High Quality Controllable 3D Head Avatar [65.70885416855782]
本稿では,高フォトリアリスティックなデジタルヘッドアバターを構築するための新しいアプローチを提案する。
本手法はニューラルネットワークによってパラメータ化された暗黙関数を用いて標準空間を学習する。
テスト時,本手法は単眼のRGBビデオによって駆動される。
論文 参考訳(メタデータ) (2023-03-25T13:56:33Z) - LiP-Flow: Learning Inference-time Priors for Codec Avatars via
Normalizing Flows in Latent Space [90.74976459491303]
実行時入力に条件付けされた先行モデルを導入し、この先行空間を潜伏空間の正規化フローを介して3次元顔モデルに結びつける。
正規化フローは2つの表現空間をブリッジし、潜在サンプルをある領域から別の領域に変換することで、潜在可能性の目的を定義する。
提案手法は,表情のダイナミックスや微妙な表現をよりよく捉えることによって,表現的かつ効果的に先行することを示す。
論文 参考訳(メタデータ) (2022-03-15T13:22:57Z) - DECA: Deep viewpoint-Equivariant human pose estimation using Capsule
Autoencoders [3.2826250607043796]
トレーニング時に見つからない視点を扱う場合、現在の3Dヒューマンポース推定法は失敗する傾向にあることを示す。
そこで本研究では,高速変動ベイズカプセルルーティングを用いたカプセルオートエンコーダネットワークDECAを提案する。
実験による検証では,視界・視界・視界・視界・視界・視界の両面から,奥行き画像の他の手法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-19T08:46:15Z) - PVA: Pixel-aligned Volumetric Avatars [34.929560973779466]
少数の入力から人間の頭部の体積アバターを予測するための新しいアプローチを考案する。
提案手法は,光度再レンダリングによる損失のみを前提としたエンドツーエンドで,明示的な3次元監視を必要とせずに訓練を行う。
論文 参考訳(メタデータ) (2021-01-07T18:58:46Z) - Coherent Reconstruction of Multiple Humans from a Single Image [68.3319089392548]
本研究では,1枚の画像から多人数の3Dポーズ推定を行う問題に対処する。
この問題のトップダウン設定における典型的な回帰アプローチは、まずすべての人間を検出し、それぞれを独立して再構築する。
我々のゴールは、これらの問題を回避し、現場のすべての人間のコヒーレントな3D再構成を生成するために学習する単一のネットワークをトレーニングすることである。
論文 参考訳(メタデータ) (2020-06-15T17:51:45Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。