論文の概要: Learning Compositional Representation for 4D Captures with Neural ODE
- arxiv url: http://arxiv.org/abs/2103.08271v1
- Date: Mon, 15 Mar 2021 10:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:06:37.948278
- Title: Learning Compositional Representation for 4D Captures with Neural ODE
- Title(参考訳): ニューラルネットワークによる4次元キャプチャの合成表現の学習
- Authors: Boyan Jiang, Yinda Zhang, Xingkui Wei, Xiangyang Xue, Yanwei Fu
- Abstract要約: 本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
- 参考スコア(独自算出の注目度): 72.56606274691033
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning based representation has become the key to the success of many
computer vision systems. While many 3D representations have been proposed, it
is still an unaddressed problem for how to represent a dynamically changing 3D
object. In this paper, we introduce a compositional representation for 4D
captures, i.e. a deforming 3D object over a temporal span, that disentangles
shape, initial state, and motion respectively. Each component is represented by
a latent code via a trained encoder. To model the motion, a neural Ordinary
Differential Equation (ODE) is trained to update the initial state conditioned
on the learned motion code, and a decoder takes the shape code and the updated
pose code to reconstruct 4D captures at each time stamp. To this end, we
propose an Identity Exchange Training (IET) strategy to encourage the network
to learn effectively decoupling each component. Extensive experiments
demonstrate that the proposed method outperforms existing state-of-the-art deep
learning based methods on 4D reconstruction, and significantly improves on
various tasks, including motion transfer and completion.
- Abstract(参考訳): 学習に基づく表現は多くのコンピュータビジョンシステムの成功の鍵となっている。
多くの3D表現が提案されているが、動的に変化する3Dオブジェクトを表現する方法は未解決の問題である。
本稿では,4Dキャプチャの構成表現について述べる。
時間的スパン上の変形する3Dオブジェクトで、それぞれ形状、初期状態、動きを歪めます。
各コンポーネントは、トレーニングされたエンコーダを介して潜在コードで表現される。
動作をモデル化するために、学習された動作コードに条件付けられた初期状態を更新するためにニューラル正規微分方程式(ODE)を訓練し、デコーダは形状コードと更新されたポーズコードを取り、各スタンプで4Dキャプチャを再構成する。
この目的のために、ネットワークが各コンポーネントを効果的に分離することを促すIET(Identity Exchange Training)戦略を提案する。
広範な実験により,提案手法は4次元再構成における既存の最先端の深層学習手法を上回り,運動伝達や完了など,さまざまなタスクにおいて有意に改善することを実証した。
関連論文リスト
- Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - LoRD: Local 4D Implicit Representation for High-Fidelity Dynamic Human
Modeling [69.56581851211841]
そこで我々は,LoRDという,動的に衣を着る人間の局所的な4D暗黙表現を提案する。
私たちの重要な洞察は、ネットワークがローカルな部分レベルの表現の潜在コードを学ぶように促すことです。
LoRDは、4D人間を表現する能力が強く、実用上の最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2022-08-18T03:49:44Z) - H4D: Human 4D Modeling by Learning Neural Compositional Representation [75.34798886466311]
この研究は、動的人間に対するコンパクトで構成的な表現を効果的に学習できる新しい枠組みを提示する。
単純で効果的な線形運動モデルを提案し, 粗く規則化された動き推定を行う。
本手法は, 高精度な動作と詳細な形状を持つ動的ヒトの回復に有効であるだけでなく, 様々な4次元人間関連タスクにも有効であることを示す。
論文 参考訳(メタデータ) (2022-03-02T17:10:49Z) - 4DContrast: Contrastive Learning with Dynamic Correspondences for 3D
Scene Understanding [22.896937940702642]
教師なし事前学習により学習した3次元表現に4次元動的対象を組み込む新しい手法を提案する。
本研究では,静的な3次元環境に移動する合成3次元形状を利用した新しいデータ拡張手法を提案する。
実験により、教師なし表現学習は、下流3次元セマンティックセマンティックセマンティックセマンティクス、オブジェクト検出、インスタンスセマンティクスタスクの改善をもたらすことが示された。
論文 参考訳(メタデータ) (2021-12-06T13:09:07Z) - Learning Parallel Dense Correspondence from Spatio-Temporal Descriptors
for Efficient and Robust 4D Reconstruction [43.60322886598972]
本稿では,点雲列からの4次元形状再構成の課題に焦点をあてる。
本稿では,クロスフレーム占有領域間の連続的変換関数を捉えることにより,人間の3次元形状の時間変化を学ぶための新しいパイプラインを提案する。
論文 参考訳(メタデータ) (2021-03-30T13:36:03Z) - Depth-Aware Action Recognition: Pose-Motion Encoding through Temporal
Heatmaps [2.2079886535603084]
動作分類のための統一表現において、ポーズ情報と動き情報を符号化する深度認識記述子を提案する。
本手法の鍵となる要素は,人体の意味的キーポイントの3次元移動を符号化した新しいビデオ記述子,DA-PoTionである。
論文 参考訳(メタデータ) (2020-11-26T17:26:42Z) - Weakly Supervised Learning of Multi-Object 3D Scene Decompositions Using
Deep Shape Priors [69.02332607843569]
PriSMONetは、単一画像から多目的3Dシーンの分解と表現を学習するための新しいアプローチである。
リカレントエンコーダは、入力されたRGB画像から、各オブジェクトの3D形状、ポーズ、テクスチャの潜時表現を回帰する。
我々は,3次元シーンレイアウトの推測におけるモデルの精度を評価し,その生成能力を実証し,実画像への一般化を評価し,学習した表現の利点を指摘する。
論文 参考訳(メタデータ) (2020-10-08T14:49:23Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。