論文の概要: HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
- arxiv url: http://arxiv.org/abs/2305.06356v2
- Date: Thu, 11 May 2023 17:59:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-12 11:15:16.501076
- Title: HumanRF: High-Fidelity Neural Radiance Fields for Humans in Motion
- Title(参考訳): HumanRF:人間の運動における高忠実性ニューラルラジアンス場
- Authors: Mustafa I\c{s}{\i}k, Martin R\"unz, Markos Georgopoulos, Taras
Khakhulin, Jonathan Starck, Lourdes Agapito, Matthias Nie{\ss}ner
- Abstract要約: 我々は,多視点ビデオ入力から全身の動きをとらえる4次元動的ニューラルシーン表現であるHumanRFを紹介する。
我々の新しい表現は、高い圧縮速度で細部をキャプチャするダイナミックビデオ符号化として機能する。
このような高解像度データから生じる課題を実証し、新たに導入したHumanRFがこのデータを効果的に活用していることを示す。
- 参考スコア(独自算出の注目度): 7.592039690054564
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Representing human performance at high-fidelity is an essential building
block in diverse applications, such as film production, computer games or
videoconferencing. To close the gap to production-level quality, we introduce
HumanRF, a 4D dynamic neural scene representation that captures full-body
appearance in motion from multi-view video input, and enables playback from
novel, unseen viewpoints. Our novel representation acts as a dynamic video
encoding that captures fine details at high compression rates by factorizing
space-time into a temporal matrix-vector decomposition. This allows us to
obtain temporally coherent reconstructions of human actors for long sequences,
while representing high-resolution details even in the context of challenging
motion. While most research focuses on synthesizing at resolutions of 4MP or
lower, we address the challenge of operating at 12MP. To this end, we introduce
ActorsHQ, a novel multi-view dataset that provides 12MP footage from 160
cameras for 16 sequences with high-fidelity, per-frame mesh reconstructions. We
demonstrate challenges that emerge from using such high-resolution data and
show that our newly introduced HumanRF effectively leverages this data, making
a significant step towards production-level quality novel view synthesis.
- Abstract(参考訳): 高い忠実度で人間のパフォーマンスを表現することは、映画制作、コンピュータゲーム、ビデオ会議など、さまざまなアプリケーションにおいて必須の構成要素である。
プロダクションレベルの品質とのギャップを埋めるために,多視点ビデオ入力から全体像を捉える4次元ダイナミックなニューラルシーン表現であるHumanRFを導入し,新規で見えない視点からの再生を可能にする。
提案手法は, 時空を時間行列ベクトル分解に分解することにより, 高圧縮率で細部をキャプチャする動的ビデオ符号化として機能する。
これにより, 挑戦的動作の文脈においても, 高分解能なディテールを表現しながら, 長時間連続する人間の俳優の時間的コヒーレントな再構成を得ることができる。
ほとんどの研究は4MP以下の解像度での合成に焦点を当てているが、我々は12MPでの運用の課題に対処する。
この目的のために,160台のカメラから12メガピクセルの映像を16のシーケンスで提供し,高忠実度でフレーム毎のメッシュ再構成を行う,新しいマルチビューデータセットである actorhq を紹介する。
このような高解像度データから生じる課題を実証し,新たに導入したhumanrfがこのデータを有効に活用し,製品レベルの新規なビュー合成に向けて大きな一歩を踏み出したことを示す。
関連論文リスト
- MotionAura: Generating High-Quality and Motion Consistent Videos using Discrete Diffusion [3.7270979204213446]
ビデオ処理の課題に対処するための4つの重要なコントリビューションを提示する。
まず,3次元逆ベクトル量子化バリエンコエンコオートコーダを紹介する。
次に,テキスト・ビデオ生成フレームワークであるMotionAuraを紹介する。
第3に,スペクトル変換器を用いたデノナイジングネットワークを提案する。
第4に,Sketch Guided Videopaintingのダウンストリームタスクを導入する。
論文 参考訳(メタデータ) (2024-10-10T07:07:56Z) - ViewCrafter: Taming Video Diffusion Models for High-fidelity Novel View Synthesis [63.169364481672915]
単一またはスパース画像からジェネリックシーンの高忠実な新規ビューを合成する新しい方法である textbfViewCrafter を提案する。
提案手法は,映像拡散モデルの強力な生成能力と,ポイントベース表現によって提供される粗い3D手がかりを利用して高品質な映像フレームを生成する。
論文 参考訳(メタデータ) (2024-09-03T16:53:19Z) - PKU-DyMVHumans: A Multi-View Video Benchmark for High-Fidelity Dynamic Human Modeling [33.00658723633997]
PKU-DyMVHumansは高忠実度再構成と動的人間のシナリオのレンダリングのための汎用的な人間中心のデータセットである。
フレーム数は820万フレームで、56台以上のカメラが様々なシナリオで同期している。
ニューラルフィールド(NeRF)に基づくシーン表現の最近の進歩に触発されて、私たちは、オフザシェルフフレームワークを慎重にセットアップした。
論文 参考訳(メタデータ) (2024-03-24T10:06:40Z) - NeRSemble: Multi-view Radiance Field Reconstruction of Human Heads [2.5999037208435705]
16個のキャリブレーションされたマシン・ビジョン・カメラからなる新しいマルチビュー・キャプチャー・セットアップを提案する。
セットアップによって、220以上の人間の頭からなる4700以上の高解像度の高フレーム配列のデータセットを収集しました。
高忠実度人間の頭部を再構築するために,ハッシュアンサンブルを用いた動的ニューラルラジアンス場を提案する。
論文 参考訳(メタデータ) (2023-05-04T17:52:18Z) - DynIBaR: Neural Dynamic Image-Based Rendering [79.44655794967741]
複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。
我々は,近傍のビューから特徴を集約することで,新しい視点を合成するボリューム画像ベースのレンダリングフレームワークを採用する。
動的シーンデータセットにおける最先端手法の大幅な改善を示す。
論文 参考訳(メタデータ) (2022-11-20T20:57:02Z) - NeRFPlayer: A Streamable Dynamic Scene Representation with Decomposed
Neural Radiance Fields [99.57774680640581]
本稿では、高速な再構成、コンパクトなモデリング、およびストリーム可能なレンダリングが可能な効率的なフレームワークを提案する。
本稿では, 時間特性に応じて4次元空間を分解することを提案する。4次元空間の点は, 静的, 変形, および新しい領域の3つのカテゴリに属する確率に関連付けられている。
論文 参考訳(メタデータ) (2022-10-28T07:11:05Z) - Differentiable Frequency-based Disentanglement for Aerial Video Action
Recognition [56.91538445510214]
ビデオにおける人間の行動認識のための学習アルゴリズムを提案する。
我々のアプローチは、主に斜めに配置されたダイナミックカメラから取得されるUAVビデオのために設計されている。
我々はUAV HumanデータセットとNEC Droneデータセットについて広範な実験を行った。
論文 参考訳(メタデータ) (2022-09-15T22:16:52Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - DeepMultiCap: Performance Capture of Multiple Characters Using Sparse
Multiview Cameras [63.186486240525554]
deep multicapは、スパースマルチビューカメラを用いたマルチパーソンパフォーマンスキャプチャのための新しい手法である。
本手法では,事前走査型テンプレートモデルを用いることなく,時間変化した表面の詳細をキャプチャできる。
論文 参考訳(メタデータ) (2021-05-01T14:32:13Z) - Neural 3D Video Synthesis [18.116032726623608]
本研究では,動的実世界のシーンのマルチビュー映像記録を表現可能な3次元映像合成手法を提案する。
私たちのアプローチは、モデルフリーでダイナミックな設定に、新しい方向の静的神経放射体の高品質とコンパクトさを取ります。
本手法は,高度に複雑でダイナミックなシーンでも1k以上の解像度で高精細な広角ノベルビューをレンダリングできることを実証する。
論文 参考訳(メタデータ) (2021-03-03T18:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。