論文の概要: You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos
- arxiv url: http://arxiv.org/abs/2303.05835v1
- Date: Fri, 10 Mar 2023 10:23:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-13 15:21:27.199859
- Title: You Only Train Once: Multi-Identity Free-Viewpoint Neural Human
Rendering from Monocular Videos
- Title(参考訳): 1回だけトレーニングする:単眼ビデオからの多元的自由視点ニューラルヒューマンレンダリング
- Authors: Jaehyeok Kim, Dongyoon Wee, Dan Xu
- Abstract要約: You Only Train Once (YOTO) は動的なヒューマンジェネレーションフレームワークであり、異なる動きを持つ異なる人間のアイデンティティを自由視点でレンダリングする。
本稿では,多元性自由視点レンダリングのためのフレームワークの能力を拡張するために,学習可能な識別符号のセットを提案する。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
- 参考スコア(独自算出の注目度): 10.795522875068073
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce You Only Train Once (YOTO), a dynamic human generation
framework, which performs free-viewpoint rendering of different human
identities with distinct motions, via only one-time training from monocular
videos. Most prior works for the task require individualized optimization for
each input video that contains a distinct human identity, leading to a
significant amount of time and resources for the deployment, thereby impeding
the scalability and the overall application potential of the system. In this
paper, we tackle this problem by proposing a set of learnable identity codes to
expand the capability of the framework for multi-identity free-viewpoint
rendering, and an effective pose-conditioned code query mechanism to finely
model the pose-dependent non-rigid motions. YOTO optimizes neural radiance
fields (NeRF) by utilizing designed identity codes to condition the model for
learning various canonical T-pose appearances in a single shared volumetric
representation. Besides, our joint learning of multiple identities within a
unified model incidentally enables flexible motion transfer in high-quality
photo-realistic renderings for all learned appearances. This capability expands
its potential use in important applications, including Virtual Reality. We
present extensive experimental results on ZJU-MoCap and PeopleSnapshot to
clearly demonstrate the effectiveness of our proposed model. YOTO shows
state-of-the-art performance on all evaluation metrics while showing
significant benefits in training and inference efficiency as well as rendering
quality. The code and model will be made publicly available soon.
- Abstract(参考訳): モノクロビデオからの1回のみのトレーニングを通じて、異なる動作で異なる人間のアイデンティティを自由視点でレンダリングするダイナミックな人間生成フレームワークであるyoto(train once)を紹介します。
タスクの以前の作業のほとんどは、異なる人間のアイデンティティを含む各入力ビデオに対して個別化された最適化を必要としており、デプロイメントのかなりの時間とリソースをもたらし、それによってシステムのスケーラビリティと全体的なアプリケーションの可能性を妨げる。
本稿では,多元的自由視点レンダリングのためのフレームワークの能力を拡張するための学習可能なアイデンティティコードと,ポーズに依存しない非剛性動作を微妙にモデル化する効果的なポーズ条件付きコードクエリ機構を提案する。
YOTOは、設計されたアイデンティティコードを利用して、単一共有ボリューム表現における様々な標準的T位置の出現を学習するためのモデルを記述することにより、ニューラルラディアンスフィールド(NeRF)を最適化する。
さらに、統合モデル内の複数のアイデンティティを共同学習することで、高画質な写真リアルレンダリングにおけるフレキシブルな動き伝達が可能となる。
この機能は、Virtual Realityを含む重要なアプリケーションでの可能性を広げる。
zju-mocapとpeoplesnapshotの広範な実験結果を示し,提案モデルの有効性を明らかにした。
YOTOは、すべての評価指標で最先端のパフォーマンスを示しながら、トレーニングや推論効率、レンダリング品質に大きなメリットを示している。
コードとモデルはまもなく公開される予定だ。
関連論文リスト
- Learned Single-Pass Multitasking Perceptual Graphics for Immersive Displays [11.15417027415116]
本稿では,テキスト誘導型マルチタスク・パーセプチュアルグラフィックスモデルを提案する。
我々のモデルは、フェーベレートレンダリング、ダイナミックレンジエンハンスメント、画像デノイング、クロモステロプシスなど、様々な知覚タスクをサポートしている。
組込みプラットフォーム上でのモデルの性能を評価し,ユーザスタディを通じてモデルの知覚的品質を評価する。
論文 参考訳(メタデータ) (2024-07-31T19:05:00Z) - Motion-Oriented Compositional Neural Radiance Fields for Monocular Dynamic Human Modeling [10.914612535745789]
本稿では,MoCo-NeRF(MoCo-NeRF)について述べる。
MoCo-NeRFはモノクロビデオのフリービューポイントレンダリングを実現するために設計されたフレームワークである。
論文 参考訳(メタデータ) (2024-07-16T17:59:01Z) - VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - SEED-X: Multimodal Models with Unified Multi-granularity Comprehension and Generation [61.392147185793476]
統一的で汎用的な基礎モデル、すなわちSEED-Xを提案する。
SEED-Xは、理解および生成タスクのための多粒度視覚意味論をモデル化することができる。
我々の研究が、現実世界のアプリケーションで多目的なマルチモーダル基盤モデルによって達成できるものについて、将来の研究に刺激を与えることを期待しています。
論文 参考訳(メタデータ) (2024-04-22T17:56:09Z) - Federated Multi-View Synthesizing for Metaverse [52.59476179535153]
メタバースは没入型エンターテイメント、教育、ビジネスアプリケーションを提供すると期待されている。
無線ネットワーク上のバーチャルリアリティ(VR)伝送は、データと計算集約である。
我々は,メタバースにおける無線コンテンツ配信のために,効率的な合成,記憶,通信資源を提供する,新しい多視点合成フレームワークを開発した。
論文 参考訳(メタデータ) (2023-12-18T13:51:56Z) - GHuNeRF: Generalizable Human NeRF from a Monocular Video [63.741714198481354]
GHuNeRFはモノクロビデオから一般化可能なヒトNeRFモデルを学習する。
広範に使われているZJU-MoCapデータセットに対するアプローチを検証する。
論文 参考訳(メタデータ) (2023-08-31T09:19:06Z) - MonoHuman: Animatable Human Neural Field from Monocular Video [30.113937856494726]
そこで我々は,任意のポーズの下で,ビュー一貫性と高忠実度アバターを強固に描画する新しいフレームワークMonoHumanを提案する。
我々のキーとなる洞察は、変形場を双方向の制約でモデル化し、オフザペグ情報を明示的に活用して、特徴を一貫性のある結果の推論を行うことである。
論文 参考訳(メタデータ) (2023-04-04T17:55:03Z) - i-Code: An Integrative and Composable Multimodal Learning Framework [99.56065789066027]
i-Codeは、視覚、音声、言語を統一的で汎用的なベクトル表現に柔軟に組み合わせられる自己教師型事前学習フレームワークである。
システム全体は、マスク付きモダリティ・ユニット・モデリングやクロスモダリティ・コントラスト・ラーニングなどの新しい目的により、エンドツーエンドで事前訓練されている。
実験の結果、i-Codeは5つのビデオ理解タスクとGLUE NLPベンチマークで最先端技術を上回る性能を示し、最大11%改善した。
論文 参考訳(メタデータ) (2022-05-03T23:38:50Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - Multimodal Face Synthesis from Visual Attributes [85.87796260802223]
本稿では,マルチモーダル顔画像を保存するIDを同時に合成する新たな生成対向ネットワークを提案する。
実画像と偽画像の区別を行う識別装置にマルチモーダルストレッチインモジュールを導入。
論文 参考訳(メタデータ) (2021-04-09T13:47:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。