Fugu-MT 論文翻訳(概要): Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

論文の概要: Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos

arxiv url: http://arxiv.org/abs/2103.03319v1
Date: Thu, 4 Mar 2021 20:46:30 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-08 14:52:59.584929
Title: Learning High Fidelity Depths of Dressed Humans by Watching Social Media Dance Videos
Title（参考訳）: ソーシャルメディアのダンス映像から身近な人物の忠実度を学習する
Authors: Yasamin Jafarian, Hyun Soo Park
Abstract要約: 本稿では,その人物の予測された局所形状を,別の瞬間に画像から別の画像へ警告する局所変換を用いた新しい手法を提案する。本手法はエンドツーエンドで訓練可能であり,入力実画像に忠実な微細形状を予測できる高忠実度深さ推定を行う。
参考スコア（独自算出の注目度）: 21.11427729302936
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: A key challenge of learning the geometry of dressed humans lies in the limited availability of the ground truth data (e.g., 3D scanned models), which results in the performance degradation of 3D human reconstruction when applying to real-world imagery. We address this challenge by leveraging a new data resource: a number of social media dance videos that span diverse appearance, clothing styles, performances, and identities. Each video depicts dynamic movements of the body and clothes of a single person while lacking the 3D ground truth geometry. To utilize these videos, we present a new method to use the local transformation that warps the predicted local geometry of the person from an image to that of another image at a different time instant. This allows self-supervision as enforcing a temporal coherence over the predictions. In addition, we jointly learn the depth along with the surface normals that are highly responsive to local texture, wrinkle, and shade by maximizing their geometric consistency. Our method is end-to-end trainable, resulting in high fidelity depth estimation that predicts fine geometry faithful to the input real image. We demonstrate that our method outperforms the state-of-the-art human depth estimation and human shape recovery approaches on both real and rendered images.
Abstract（参考訳）: 服を着る人間の幾何学を学ぶための重要な課題は、地上の真実データ(例えば、3Dスキャンされたモデル)の限られた可用性にある。さまざまな外観、衣料品スタイル、パフォーマンス、アイデンティティにまたがるソーシャルメディアダンスビデオの数:我々は、新しいデータリソースを利用して、この課題に取り組みます。それぞれのビデオは、1人の身体と衣服のダイナミックな動きを描いているが、3D地上の真実の幾何学は欠如している。これらの映像を利用するために,予測された人物の局所的幾何を異なるタイミングで他の人物の局所的形状にワープする,局所的変換を用いた新しい手法を提案する。これにより、予測に対する時間的コヒーレンスを強制する自己超越が可能となる。さらに, 局所的なテクスチャ, しわ, 日陰に応答する表面の正常値とともに, 幾何的一貫性を最大化することにより, 深度を共に学習する。本手法はエンドツーエンドで訓練可能であり,入力実画像に忠実な微細形状を予測できる高忠実度深さ推定を行う。本手法は,実画像とレンダリング画像の両方において,最先端の人間の深度推定と人間の形状復元アプローチに勝ることを示す。

関連論文リスト

DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文参考訳（メタデータ） (2024-11-30T08:42:13Z)
Single Image, Any Face: Generalisable 3D Face Generation [59.9369171926757]
我々は,制約のない単一画像入力を伴う3次元顔を生成する新しいモデルGen3D-Faceを提案する。私たちの知る限りでは、これは1枚の画像からフォトリアリスティックな3D顔アバターを作るための最初の試みであり、ベンチマークである。
論文参考訳（メタデータ） (2024-09-25T14:56:37Z)
MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文参考訳（メタデータ） (2024-06-03T17:59:57Z)
Dynamic Appearance Modeling of Clothed 3D Human Avatars using a Single Camera [8.308263758475938]
本研究では,動的な動きを持つ人の映像を用いて,布を被った3次元アバターの高品質なモデリング手法を提案する。明示的なモデリングのために、ニューラルネットワークは、3Dボディモデルのポイントワイドな形状残差と外観特徴を生成することを学習する。暗黙のモデリングのために、暗黙のネットワークは、外観と3Dモーション特徴を組み合わせて、高忠実な3Dアバターをデコードする。
論文参考訳（メタデータ） (2023-12-28T06:04:39Z)
SiTH: Single-view Textured Human Reconstruction with Image-Conditioned Diffusion [35.73448283467723]
SiTHは、イメージ条件付き拡散モデルと3Dメッシュ再構築ワークフローを統合する、新しいパイプラインである。我々は、入力画像に基づいて、見えないバックビューの外観を幻覚させるために、強力な生成拡散モデルを用いる。後者では,入力画像とバックビュー画像から全身のテクスチャメッシュを復元するためのガイダンスとして,肌付きボディーメッシュを利用する。
論文参考訳（メタデータ） (2023-11-27T14:22:07Z)
Vid2Avatar: 3D Avatar Reconstruction from Videos in the Wild via Self-supervised Scene Decomposition [40.46674919612935]
Vid2Avatarは、モノクラー・イン・ザ・ワイルドビデオから人間のアバターを学習する手法である。提案手法は,大規模な人間のスキャンデータから抽出した基礎的監督や先行データを必要としない。シーンの人間と背景の両方を共同でモデル化することで、シーンの分解と表面の再構築を3Dで直接行う。
論文参考訳（メタデータ） (2023-02-22T18:59:17Z)
Neural Novel Actor: Learning a Generalized Animatable Neural Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文参考訳（メタデータ） (2022-08-25T07:36:46Z)
Detailed Avatar Recovery from Single Image [50.82102098057822]
本稿では,単一画像からエンフデテールアバターを回収するための新しい枠組みを提案する。階層的メッシュ変形フレームワークでは、ディープニューラルネットワークを使用して3次元形状を洗練しています。本手法は,皮膚モデルを超えて,完全なテクスチャで詳細な人体形状を復元することができる。
論文参考訳（メタデータ） (2021-08-06T03:51:26Z)
Animatable Neural Radiance Fields from Monocular RGB Video [72.6101766407013]
単眼ビデオからの詳細な人体アバター作成のためのアニマタブル神経放射場について述べる。我々のアプローチは、明示的なポーズ誘導変形を導入することで、人間の動きを伴う動的シーンに神経放射場を拡大する。実験の結果, 提案手法は, 1) 質の高い細部を持つ暗黙の人間の形状と外観の復元, 2) 任意の視点からの人間の写真リアルなレンダリング, 3) 任意のポーズを持つ人間のアニメーションを実現する。
論文参考訳（メタデータ） (2021-06-25T13:32:23Z)
Deep3DPose: Realtime Reconstruction of Arbitrarily Posed Human Bodies from Single RGB Images [5.775625085664381]
本研究では,3次元人間のポーズを正確に再構築し,単一画像から詳細な3次元フルボディ幾何モデルをリアルタイムに構築する手法を提案する。このアプローチの鍵となるアイデアは、単一のイメージを使用して5つの出力を同時に予測する、新しいエンドツーエンドのマルチタスクディープラーニングフレームワークである。本研究では,3次元人体フロンティアを進化させ,定量的評価と最先端手法との比較により,単一画像からの再構築を図っている。
論文参考訳（メタデータ） (2021-06-22T04:26:11Z)
Neural Actor: Neural Free-view Synthesis of Human Actors with Pose Control [80.79820002330457]
任意の視点と任意の制御可能なポーズの下での人間の高品質な合成法を提案する。提案手法は,新しいポーズ合成法と同様に,再生時の最先端技術よりも優れた品質を実現し,トレーニングポーズと大きく異なる新しいポーズを一般化することができる。
論文参考訳（メタデータ） (2021-06-03T17:40:48Z)
Neural Re-Rendering of Humans from a Single Image [80.53438609047896]
本稿では,新しいユーザ定義のポーズと視点の下での人間のニューラルリレンダリング手法を提案する。私たちのアルゴリズムは、単一の画像から再構築できるパラメトリックメッシュとして体ポーズと形状を表します。
論文参考訳（メタデータ） (2021-01-11T18:53:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。