Fugu-MT 論文翻訳(概要): R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

論文の概要: R2Human: Real-Time 3D Human Appearance Rendering from a Single Image

arxiv url: http://arxiv.org/abs/2312.05826v3
Date: Fri, 14 Jun 2024 02:17:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 19:33:45.821787
Title: R2Human: Real-Time 3D Human Appearance Rendering from a Single Image
Title（参考訳）: R2Human:1枚の画像からリアルタイムの3D画像表示
Authors: Yuanwang Yang, Qiao Feng, Yu-Kun Lai, Kun Li,
Abstract要約: R2Humanは、1つの画像から3D人間の外見をリアルタイムにレンダリングし、推測するための最初のアプローチである。本稿では、可視領域の高忠実な色再現を行い、隠蔽領域に対して信頼性の高い色推定を行うエンド・ツー・エンド・ネットワークを提案する。
参考スコア（独自算出の注目度）: 42.74145788079571
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Rendering 3D human appearance in different views is crucial for achieving holographic communication and immersive VR/AR. Existing methods either rely on multi-camera setups or have low-quality rendered images from a single image. In this paper, we propose R2Human, the first approach for real-time inference and rendering of photorealistic 3D human appearance from a single image. The core of our approach is to combine the strengths of implicit texture fields and explicit neural rendering with our novel representation, namely Z-map. Based on this, we present an end-to-end network that performs high-fidelity color reconstruction of visible areas and provides reliable color inference for occluded regions. To further enhance the 3D perception ability of our network, we leverage the Fourier occupancy field as a prior for generating the texture field and providing a sampling surface in the rendering stage. We also propose a consistency loss and a spatio-temporal fusion strategy to ensure the multi-view coherence. Experimental results show that our method outperforms the state-of-the-art methods on both synthetic data and challenging real-world images, in real time.
Abstract（参考訳）: ホログラフィックコミュニケーションと没入型VR/ARを実現するためには,異なる視点で3D人間の外観をレンダリングすることが不可欠である。既存の方法は、マルチカメラのセットアップに依存するか、または単一の画像から低画質のレンダリング画像を持つ。本稿では,R2Humanを提案する。R2Humanは,1枚の画像からリアルな3次元人間の外見をリアルタイムに推論し,レンダリングする手法である。我々のアプローチの中核は、暗黙のテクスチャフィールドと明示的なニューラルレンダリングの強みと、新しい表現であるZマップを組み合わせることである。そこで本研究では,可視領域の高忠実度な色再現を行うエンド・ツー・エンド・ネットワークを提案する。ネットワークの3次元知覚能力を更に高めるために,テクスチャフィールドを生成し,レンダリング段階でサンプリング面を提供するために,フーリエ占有場を先行として活用する。また,多視点コヒーレンスを保証するために,一貫性損失と時空間融合戦略を提案する。実験結果から,本手法は,合成データと実世界の課題の画像の両方において,リアルタイムに最先端の手法より優れていることがわかった。

関連論文リスト

SMPL-GPTexture: Dual-View 3D Human Texture Estimation using Text-to-Image Generation Models [7.436391283592317]
SMPL-GPTextureは、自然言語プロンプトを入力として取り、最先端のテキスト画像生成モデルを活用する、新しいパイプラインである。パイプラインはユーザのプロンプトに合わせて高解像度なテクスチャを生成することができることを示す。
論文参考訳（メタデータ） (2025-04-17T23:28:38Z)
ConTex-Human: Free-View Rendering of Human from a Single Image with Texture-Consistent Synthesis [49.28239918969784]
テクスチャに一貫性のあるバックビュー合成モジュールを導入し、参照画像コンテンツをバックビューに転送する。また、テクスチャマッピングとリファインメントのための可視性対応パッチ整合性正規化と、合成したバックビューテクスチャの組み合わせを提案する。
論文参考訳（メタデータ） (2023-11-28T13:55:53Z)
Single-Image 3D Human Digitization with Shape-Guided Diffusion [31.99621159464388]
NeRFとその変種は通常、異なる視点からのビデオや画像を必要とする。単一入力画像から一貫した高解像度の外観を持つ人物の360度映像を生成する手法を提案する。
論文参考訳（メタデータ） (2023-11-15T18:59:56Z)
Refining 3D Human Texture Estimation from a Single Image [3.8761064607384195]
1枚の画像から3次元の人間のテクスチャを推定することは、グラフィックと視覚に不可欠である。本稿では,オフセットが深層ニューラルネットワークを介して学習される変形可能な畳み込みによって,入力を適応的にサンプリングするフレームワークを提案する。
論文参考訳（メタデータ） (2023-03-06T19:53:50Z)
Shape, Pose, and Appearance from a Single Image via Bootstrapped Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文参考訳（メタデータ） (2022-11-21T17:42:42Z)
Photo-realistic Neural Domain Randomization [37.42597274391271]
ニューラルレンダリングの最近の進歩は、フォトリアリスティック・ニューラルドメインランダム化(PNDR)と呼ばれる新しい統一アプローチを可能にしていることを示す。我々のアプローチはモジュラーであり、材料、照明、レンダリングのための異なるニューラルネットワークで構成されており、異なるキー画像生成コンポーネントを異なるパイプラインでランダム化することが可能である。実験の結果,PNDRを用いたトレーニングにより,新たなシーンへの一般化が可能であり,実世界移動の面では芸術の状況を大きく上回っていることがわかった。
論文参考訳（メタデータ） (2022-10-23T09:45:27Z)
CompNVS: Novel View Synthesis with Scene Completion [83.19663671794596]
本稿では,スパースグリッドに基づくニューラルシーン表現を用いた生成パイプラインを提案する。画像特徴を3次元空間に符号化し、幾何学的完備化ネットワークとその後のテクスチャ塗布ネットワークを用いて、欠落した領域を外挿する。フォトリアリスティック画像列は、整合性関連微分可能レンダリングによって最終的に得られる。
論文参考訳（メタデータ） (2022-07-23T09:03:13Z)
Vision Transformer for NeRF-Based View Synthesis from a Single Input Image [49.956005709863355]
本稿では,グローバルな特徴と局所的な特徴を両立させ,表現力のある3D表現を実現することを提案する。新たなビューを合成するために,学習した3次元表現に条件付き多層パーセプトロン(MLP)ネットワークを訓練し,ボリュームレンダリングを行う。提案手法は,1つの入力画像のみから新しいビューを描画し,複数のオブジェクトカテゴリを1つのモデルで一般化することができる。
論文参考訳（メタデータ） (2022-07-12T17:52:04Z)
DRaCoN -- Differentiable Rasterization Conditioned Neural Radiance Fields for Articulated Avatars [92.37436369781692]
フルボディの体積アバターを学習するためのフレームワークであるDRaCoNを提案する。 2Dと3Dのニューラルレンダリング技術の利点を利用する。挑戦的なZJU-MoCapとHuman3.6Mデータセットの実験は、DRaCoNが最先端の手法より優れていることを示している。
論文参考訳（メタデータ） (2022-03-29T17:59:15Z)
Photorealism in Driving Simulations: Blending Generative Adversarial Image Synthesis with Rendering [0.0]
我々は、運転シミュレーションの視覚的忠実度を改善するために、ハイブリッドな生成型ニューラルネットワークパイプラインを導入する。テクスチャのない単純なオブジェクトモデルからなる3次元シーンから2次元のセマンティック画像を生成する。これらのセマンティックイメージは、現実の運転シーンで訓練された最先端のジェネレーティブ・アドリア・ネットワーク(GAN)を用いて、フォトリアリスティックなRGBイメージに変換される。
論文参考訳（メタデータ） (2020-07-31T03:25:17Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。