論文の概要: Monocular Real-Time Volumetric Performance Capture
- arxiv url: http://arxiv.org/abs/2007.13988v1
- Date: Tue, 28 Jul 2020 04:45:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 02:01:15.389085
- Title: Monocular Real-Time Volumetric Performance Capture
- Title(参考訳): 単眼リアルタイムボリュームパフォーマンスキャプチャ
- Authors: Ruilong Li, Yuliang Xiu, Shunsuke Saito, Zeng Huang, Kyle Olszewski,
Hao Li
- Abstract要約: 本稿では,モノクロ映像から実時間速度でボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングを行うための最初のアプローチを提案する。
このシステムは,Pixel-Aligned Implicit Function (PIFu)を活用して,各フレームから完全にテクスチャ化された3次元人体を再構成する。
また,オンラインハード・サンプル・マイニング(OHEM)技術を導入し,難題の稀な発生により,障害モードを効果的に抑制する手法を提案する。
- 参考スコア(独自算出の注目度): 28.481131687883256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present the first approach to volumetric performance capture and
novel-view rendering at real-time speed from monocular video, eliminating the
need for expensive multi-view systems or cumbersome pre-acquisition of a
personalized template model. Our system reconstructs a fully textured 3D human
from each frame by leveraging Pixel-Aligned Implicit Function (PIFu). While
PIFu achieves high-resolution reconstruction in a memory-efficient manner, its
computationally expensive inference prevents us from deploying such a system
for real-time applications. To this end, we propose a novel hierarchical
surface localization algorithm and a direct rendering method without explicitly
extracting surface meshes. By culling unnecessary regions for evaluation in a
coarse-to-fine manner, we successfully accelerate the reconstruction by two
orders of magnitude from the baseline without compromising the quality.
Furthermore, we introduce an Online Hard Example Mining (OHEM) technique that
effectively suppresses failure modes due to the rare occurrence of challenging
examples. We adaptively update the sampling probability of the training data
based on the current reconstruction accuracy, which effectively alleviates
reconstruction artifacts. Our experiments and evaluations demonstrate the
robustness of our system to various challenging angles, illuminations, poses,
and clothing styles. We also show that our approach compares favorably with the
state-of-the-art monocular performance capture. Our proposed approach removes
the need for multi-view studio settings and enables a consumer-accessible
solution for volumetric capture.
- Abstract(参考訳): 本稿では,モノクロ映像から高速なボリューム・パフォーマンス・キャプチャとノベル・ビュー・レンダリングへの最初のアプローチとして,高価なマルチビュー・システムや,パーソナライズされたテンプレート・モデルの煩雑な事前取得の必要性を排除した。
本システムは,Pixel-Aligned Implicit Function (PIFu) を利用して,各フレームから完全にテクスチャ化された3次元人間を再構成する。
PIFuはメモリ効率のよい高解像度再構成を実現するが、その計算コストの高い推論により、そのようなシステムをリアルタイムアプリケーションにデプロイすることができない。
そこで本研究では,表面メッシュを明示的に抽出することなく,新しい階層型表面ローカライズアルゴリズムと直接レンダリング手法を提案する。
粗大な評価のために不要な領域を刻み込むことにより, 品質を損なうことなく, 基準から2桁の倍率で再構築を高速化することに成功した。
さらに, オンラインハードケースマイニング(OHEM)技術を導入し, 困難事例の稀な発生により, 障害モードを効果的に抑制する手法を提案する。
本研究では,現在の復元精度に基づいて,トレーニングデータのサンプリング確率を適応的に更新し,復元アーチファクトを効果的に緩和する。
我々の実験と評価は、様々な難解な角度、照明、ポーズ、衣服スタイルに対するシステムの堅牢性を示している。
また,我々のアプローチは,最先端の単眼的パフォーマンスキャプチャと好適に比較できることを示した。
提案手法では,マルチビュースタジオ設定の必要性をなくし,ボリュームキャプチャのためのコンシューマアクセス可能なソリューションを実現する。
関連論文リスト
- Simultaneous Map and Object Reconstruction [66.66729715211642]
本稿では,LiDARから大規模都市景観を動的に再現する手法を提案する。
我々は、最近の新しいビュー合成法から着想を得て、大域的な最適化として再構築問題を提起する。
連続動作の慎重なモデリングにより, 回転するLiDARセンサの回転シャッター効果を補うことができる。
論文 参考訳(メタデータ) (2024-06-19T23:53:31Z) - VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors [3.523208537466128]
本稿では,視覚的包絡を先行として高解像度画像から深度推定を行うステレオマッチング手法を提案する。
提案手法では,シーンの補助的な視点から抽出したオブジェクトマスクを用いて,不一致推定を導出し,マッチングの検索スペースを効果的に削減する。
このアプローチは、下流の復元作業において、正確な深さが重要な役割を果たすボリュームキャプチャシステムにおけるステレオリグに特化している。
論文 参考訳(メタデータ) (2024-06-04T17:59:57Z) - VQ-NeRF: Vector Quantization Enhances Implicit Neural Representations [25.88881764546414]
VQ-NeRFは、ベクトル量子化による暗黙の神経表現を強化するための効率的なパイプラインである。
圧縮および原スケールの両スケールでNeRFモデルを同時に最適化する,革新的なマルチスケールNeRFサンプリング方式を提案する。
我々は3次元再構成の幾何学的忠実度とセマンティックコヒーレンスを改善するためにセマンティックロス関数を組み込んだ。
論文 参考訳(メタデータ) (2023-10-23T01:41:38Z) - Sample Less, Learn More: Efficient Action Recognition via Frame Feature
Restoration [59.6021678234829]
本稿では,2つのスパースサンプリングおよび隣接するビデオフレームの中間特徴を復元する新しい手法を提案する。
提案手法の統合により, 一般的な3つのベースラインの効率は50%以上向上し, 認識精度は0.5%低下した。
論文 参考訳(メタデータ) (2023-07-27T13:52:42Z) - Enhancing Surface Neural Implicits with Curvature-Guided Sampling and Uncertainty-Augmented Representations [37.42624848693373]
本研究では,高忠実度3次元再構成作業において,深度画像を直接消化する手法を提案する。
高効率なトレーニングデータを生成するため,簡単なサンプリング手法を提案する。
その単純さにもかかわらず、本手法は古典的および学習的ベースラインの両方に優れる。
論文 参考訳(メタデータ) (2023-06-03T12:23:17Z) - Exploiting Diffusion Prior for Real-World Image Super-Resolution [75.5898357277047]
本稿では,事前学習したテキスト・画像拡散モデルにカプセル化された事前知識を視覚的超解像に活用するための新しいアプローチを提案する。
時間認識エンコーダを用いることで、事前学習した合成モデルを変更することなく、有望な復元結果が得られる。
論文 参考訳(メタデータ) (2023-05-11T17:55:25Z) - Efficient Human Vision Inspired Action Recognition using Adaptive
Spatiotemporal Sampling [13.427887784558168]
本稿では,効率的な行動認識処理のための適応型視覚システムを提案する。
本システムでは,グローバルコンテキストサンプリング方式を低解像度で事前スキャンし,高精細な領域で高精細な特徴をスキップしたり,要求したりすることを決定した。
動作認識のためのEPIC-KENSとUCF-101データセットを用いたシステムの有効性を検証するとともに,提案手法により,最先端のベースラインに比べて精度の低下を許容し,推論を大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2022-07-12T01:18:58Z) - MonoSDF: Exploring Monocular Geometric Cues for Neural Implicit Surface
Reconstruction [72.05649682685197]
最先端のニューラル暗黙法は、多くの入力ビューから単純なシーンの高品質な再構築を可能にする。
これは主に、十分な制約を提供していないRGB再構築損失の固有の曖昧さによって引き起こされる。
近年の単分子形状予測の分野での進歩に触発され, ニューラルな暗黙的表面再構成の改善にこれらの方法が役立つかを探究する。
論文 参考訳(メタデータ) (2022-06-01T17:58:15Z) - Neural 3D Reconstruction in the Wild [86.6264706256377]
そこで我々は,インターネット写真コレクションから効率よく高精度な表面再構成を実現する新しい手法を提案する。
そこで本研究では,これらのシーンにおける再構成性能を評価するための新しいベンチマークとプロトコルを提案する。
論文 参考訳(メタデータ) (2022-05-25T17:59:53Z) - RISP: Rendering-Invariant State Predictor with Differentiable Simulation
and Rendering for Cross-Domain Parameter Estimation [110.4255414234771]
既存のソリューションでは、大量のトレーニングデータが必要か、未知のレンダリング設定への一般化性が欠如している。
本稿では、ドメインのランダム化と微分可能なレンダリング勾配を併用してこの問題に対処する手法を提案する。
提案手法は, 再構成誤差を大幅に低減し, 未知のレンダリング構成間の一般化性が向上する。
論文 参考訳(メタデータ) (2022-05-11T17:59:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。