論文の概要: TransHuman: A Transformer-based Human Representation for Generalizable
Neural Human Rendering
- arxiv url: http://arxiv.org/abs/2307.12291v1
- Date: Sun, 23 Jul 2023 10:59:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-25 16:48:46.903935
- Title: TransHuman: A Transformer-based Human Representation for Generalizable
Neural Human Rendering
- Title(参考訳): TransHuman: 汎用型ニューラルヒューマンレンダリングのためのトランスフォーマーに基づく人間表現
- Authors: Xiao Pan, Zongxin Yang, Jianxin Ma, Chang Zhou, Yi Yang
- Abstract要約: 我々は,異なる文字の多視点ビデオから条件付き放射場(NeRF)を訓練する,一般化可能なニューラルレンダリングの課題に焦点をあてる。
以前は、SparseConvNet(SPC)ベースの人間表現を使用して、塗装されたSMPLを処理していた。
そこで,本論文では,手書きSMPLを標準空間下で学習し,人的部分間のグローバルな関係を捉える,TransHumanという新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 52.59454369653773
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we focus on the task of generalizable neural human rendering
which trains conditional Neural Radiance Fields (NeRF) from multi-view videos
of different characters. To handle the dynamic human motion, previous methods
have primarily used a SparseConvNet (SPC)-based human representation to process
the painted SMPL. However, such SPC-based representation i) optimizes under the
volatile observation space which leads to the pose-misalignment between
training and inference stages, and ii) lacks the global relationships among
human parts that is critical for handling the incomplete painted SMPL. Tackling
these issues, we present a brand-new framework named TransHuman, which learns
the painted SMPL under the canonical space and captures the global
relationships between human parts with transformers. Specifically, TransHuman
is mainly composed of Transformer-based Human Encoding (TransHE), Deformable
Partial Radiance Fields (DPaRF), and Fine-grained Detail Integration (FDI).
TransHE first processes the painted SMPL under the canonical space via
transformers for capturing the global relationships between human parts. Then,
DPaRF binds each output token with a deformable radiance field for encoding the
query point under the observation space. Finally, the FDI is employed to
further integrate fine-grained information from reference images. Extensive
experiments on ZJU-MoCap and H36M show that our TransHuman achieves a
significantly new state-of-the-art performance with high efficiency. Project
page: https://pansanity666.github.io/TransHuman/
- Abstract(参考訳): 本稿では,異なる文字のマルチビュー映像から条件付きニューラルレイディアンス場(NeRF)を訓練する,一般化可能なニューラルヒューマンレンダリングの課題に焦点を当てる。
ダイナミックな人間の動きを扱うために、従来の手法は主にSparseConvNet(SPC)ベースの人間の表現を使用して、塗装されたSMPLを処理する。
しかし、そのようなSPCベースの表現
一 トレーニングと推論段階の相違につながる揮発性観測空間の下で最適化すること。
二 不完全塗布されたSMPLの処理に欠かせない部分のグローバルな関係を欠いていること。
これらの問題に対処するため,トランスヒューマン(TransHuman)という新しいフレームワークを提案する。このフレームワークは,塗装されたSMPLを標準空間下で学習し,トランスフォーマーによる人間の世界的関係を捉える。
具体的には、TransHumanは主にTransformerベースのHuman Encoding(TransHE)、Deformable partial Radiance Fields(DPaRF)、FDI(Fin-fine Detail Integration)で構成されている。
TransHEはまず、塗られたSMPLを変換器を介して標準的な空間下で処理し、人間の部分間のグローバルな関係を捉える。
そして、DPaRFは、各出力トークンを、観測空間下でクエリポイントを符号化する変形可能な放射場にバインドする。
最後に、FDIを使用して参照画像からのきめ細かい情報をさらに統合する。
ZJU-MoCapとH36Mの大規模な実験により、我々のTransHumanは、高い効率で最先端のパフォーマンスを著しく向上することを示した。
プロジェクトページ: https://pansanity666.github.io/TransHuman/
関連論文リスト
- DiHuR: Diffusion-Guided Generalizable Human Reconstruction [51.31232435994026]
一般化可能なヒト3次元再構成のための拡散誘導モデルであるDiHuRを導入し,スパース・ミニマル・オーバーラップ画像からのビュー合成について述べる。
提案手法は, 一般化可能なフィードフォワードモデルと2次元拡散モデルとの2つのキー前処理をコヒーレントな方法で統合する。
論文 参考訳(メタデータ) (2024-11-16T03:52:23Z) - GenLayNeRF: Generalizable Layered Representations with 3D Model
Alignment for Multi-Human View Synthesis [1.6574413179773757]
GenLayNeRFは、複数の被写体の自由視点レンダリングのための一般化可能な階層化シーン表現である。
シーンを3Dボディーメッシュに固定されたマルチヒューマン層に分割する。
我々は、相関関係と融合関係にある点的画像整列と人間的アンチョレッド特徴を抽出する。
論文 参考訳(メタデータ) (2023-09-20T20:37:31Z) - ActorsNeRF: Animatable Few-shot Human Rendering with Generalizable NeRFs [61.677180970486546]
本稿では,ActorNeRFと呼ばれる新しいアニマタブルNeRFを提案する。
最初は多様な人間の被写体で事前訓練され、その後、目に見えないポーズを持つ新しい俳優のために、数発の単眼ビデオフレームで調整される。
我々は、アクターNeRFが、新しい人々への数ショットの一般化や複数のデータセットのポーズにおいて、既存の最先端技術よりも著しく優れていることを定量的に、質的に証明する。
論文 参考訳(メタデータ) (2023-04-27T17:58:48Z) - Novel View Synthesis of Humans using Differentiable Rendering [50.57718384229912]
我々は新しいポーズで人々の新しい視点を合成するための新しいアプローチを提案する。
我々の合成はヒトの骨格構造を表す拡散ガウス原始体を用いる。
これらのプリミティブをレンダリングすると、高次元の潜像が得られ、デコーダネットワークによってRGBイメージに変換される。
論文 参考訳(メタデータ) (2023-03-28T10:48:33Z) - Multimodal Vision Transformers with Forced Attention for Behavior
Analysis [0.0]
本稿では,強制注意(FAt)変換を導入し,入力エンコーディングや追加入力の利用に改良されたバックボーンを付加した。
FAt変換器は、パーソナリティ認識とボディランゲージ認識の2つの下流タスクに適用される。
Udiva v0.5, First Impressions v2, MPII Group Interaction データセットの最先端結果を得た。
論文 参考訳(メタデータ) (2022-12-07T21:56:50Z) - REMOT: A Region-to-Whole Framework for Realistic Human Motion Transfer [96.64111294772141]
HVMT(Human Video Motion Transfer)は、運転者の動きを模倣した映像を生成することを目的としている。
HVMTの既存の方法は、主にGAN(Generative Adversarial Networks)を利用してワープ操作を行う。
本稿では,GANをベースとした新しい人体移動フレームワークについて述べる。
論文 参考訳(メタデータ) (2022-09-01T14:03:51Z) - Human View Synthesis using a Single Sparse RGB-D Input [16.764379184593256]
本稿では,RGB-Dが疎い単一ビューセンサから取得した映像からリアルなレンダリングを生成するための,新しいビュー合成フレームワークを提案する。
エンハンサーネットワークは、元のビューから隠された領域でも全体の忠実さを活用し、細部まで細部までクリップレンダリングを生成する。
論文 参考訳(メタデータ) (2021-12-27T20:13:53Z) - Neural Human Performer: Learning Generalizable Radiance Fields for Human
Performance Rendering [34.80975358673563]
本稿では,強靭なパフォーマンスキャプチャのためのパラメトリック人体モデルに基づいて,一般化可能なニューラルラジアンス場を学習する手法を提案する。
ZJU-MoCap と AIST のデータセットを用いた実験により,本手法は近頃の一般化可能な NeRF 法よりも顕著に優れていることが示された。
論文 参考訳(メタデータ) (2021-09-15T17:32:46Z) - ZS-SLR: Zero-Shot Sign Language Recognition from RGB-D Videos [49.337912335944026]
ゼロショット手話認識(ZS-SLR)の問題を定式化し、RGBとDepthの2つの入力モードから2つのストリームモデルを提案する。
視覚変換機能を活用するために,人間の検出と視覚特徴表現に2つの視覚変換モデルを用いる。
視覚変換器とLSTMネットワークを用いて人体からの時間的表現を得る。
論文 参考訳(メタデータ) (2021-08-23T10:48:18Z) - Transformer Networks for Trajectory Forecasting [11.802437934289062]
本稿では,トランスフォーマーネットワークを用いた軌道予測手法を提案する。
これはLSTMの逐次ステップバイステップ処理からトランスフォーマーの唯一のアテンションベースのメモリ機構への根本的な切り替えである。
論文 参考訳(メタデータ) (2020-03-18T09:17:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。