論文の概要: MoDA: Modeling Deformable 3D Objects from Casual Videos
- arxiv url: http://arxiv.org/abs/2304.08279v3
- Date: Wed, 19 Jun 2024 15:24:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 09:10:16.281677
- Title: MoDA: Modeling Deformable 3D Objects from Casual Videos
- Title(参考訳): MoDA: カジュアルビデオから変形可能な3Dオブジェクトをモデリング
- Authors: Chaoyue Song, Jiacheng Wei, Tianyi Chen, Yiwen Chen, Chuan Sheng Foo, Fayao Liu, Guosheng Lin,
- Abstract要約: 神経二元四元系ブレンドスキンニング(NeuDBS)を提案し,スキンを折り畳むことなく3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、標準空間内の3D点を符号化する標準特徴埋め込みの対応性を確立する。
本手法は,ヒトと動物の3Dモデルを,最先端の手法よりも質的,定量的な性能で再構築することができる。
- 参考スコア(独自算出の注目度): 84.29654142118018
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we focus on the challenges of modeling deformable 3D objects from casual videos. With the popularity of neural radiance fields (NeRF), many works extend it to dynamic scenes with a canonical NeRF and a deformation model that achieves 3D point transformation between the observation space and the canonical space. Recent works rely on linear blend skinning (LBS) to achieve the canonical-observation transformation. However, the linearly weighted combination of rigid transformation matrices is not guaranteed to be rigid. As a matter of fact, unexpected scale and shear factors often appear. In practice, using LBS as the deformation model can always lead to skin-collapsing artifacts for bending or twisting motions. To solve this problem, we propose neural dual quaternion blend skinning (NeuDBS) to achieve 3D point deformation, which can perform rigid transformation without skin-collapsing artifacts. In the endeavor to register 2D pixels across different frames, we establish a correspondence between canonical feature embeddings that encodes 3D points within the canonical space, and 2D image features by solving an optimal transport problem. Besides, we introduce a texture filtering approach for texture rendering that effectively minimizes the impact of noisy colors outside target deformable objects. Extensive experiments on real and synthetic datasets show that our approach can reconstruct 3D models for humans and animals with better qualitative and quantitative performance than state-of-the-art methods. Project page: \url{https://chaoyuesong.github.io/MoDA}.
- Abstract(参考訳): 本稿では,カジュアルビデオから変形可能な3Dオブジェクトをモデル化する際の課題に焦点をあてる。
ニューラルラジアンス場(NeRF)の人気により、多くの研究が、観測空間と標準空間の間の3次元点変換を実現する変形モデルと標準のNeRFを用いて動的シーンに拡張している。
最近の研究は、標準-観測変換を達成するために線形ブレンドスキン(LBS)に依存している。
しかし、剛体変換行列の線形重み付け結合は、剛体であることが保証されない。
実際、予期せぬスケールとせん断要因がしばしば現れる。
実際には、LBSを変形モデルとして使用すると、常に曲げたりねじったりするための皮膚を折り畳むアーティファクトにつながる可能性がある。
この問題を解決するために,ニューラルデュアル四元系ブレンドスキン(NeuDBS)を提案し,スキンを折り畳むことなく剛性変換が可能な3次元点変形を実現する。
異なるフレーム間で2Dピクセルを登録する試みにおいて、正準空間内の3D点を符号化する正準特徴埋め込みと、最適輸送問題を解くことによって2D画像特徴との対応性を確立する。
さらに、テクスチャレンダリングのためのテクスチャフィルタリング手法を導入し、ターゲット変形対象外におけるノイズ色の影響を効果的に最小化する。
実際のデータセットと合成データセットの大規模な実験により、我々の手法は、最先端の手法よりも質的かつ定量的な性能で、人間と動物の3Dモデルを再構築できることが示されている。
プロジェクトページ: \url{https://chaoyuesong.github.io/MoDA}。
関連論文リスト
- DIRECT-3D: Learning Direct Text-to-3D Generation on Massive Noisy 3D Data [50.164670363633704]
テキストプロンプトから高品質な3Dアセットを作成するための拡散型3D生成モデルであるDIRECT-3Dを提案する。
我々のモデルは、広範に騒々しく不整合な3D資産で直接訓練されている。
単一クラス生成とテキスト・ツー・3D生成の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-06-06T17:58:15Z) - Decaf: Monocular Deformation Capture for Face and Hand Interactions [77.75726740605748]
本稿では,単眼のRGBビデオから人間の顔と対話する人間の手を3Dで追跡する手法を提案する。
動作中の非剛性面の変形を誘発する定形物体として手をモデル化する。
本手法は,マーカーレスマルチビューカメラシステムで取得した現実的な顔変形を伴う手動・インタラクションキャプチャーデータセットに頼っている。
論文 参考訳(メタデータ) (2023-09-28T17:59:51Z) - Disentangled3D: Learning a 3D Generative Model with Disentangled
Geometry and Appearance from Monocular Images [94.49117671450531]
最先端の3D生成モデルは、合成に神経的な3Dボリューム表現を使用するGANである。
本稿では,単分子観察だけで物体の絡み合ったモデルを学ぶことができる3D GANを設計する。
論文 参考訳(メタデータ) (2022-03-29T22:03:18Z) - Animatable Implicit Neural Representations for Creating Realistic
Avatars from Videos [63.16888987770885]
本稿では,マルチビュー映像からアニマタブルな人間モデルを構築することの課題について述べる。
線形ブレンドスキンアルゴリズムに基づくポーズ駆動変形場を提案する。
提案手法は,近年の人体モデリング手法よりも大幅に優れていることを示す。
論文 参考訳(メタデータ) (2022-03-15T17:56:59Z) - BANMo: Building Animatable 3D Neural Models from Many Casual Videos [135.64291166057373]
本稿では,特殊なセンサや事前定義されたテンプレート形状を必要としないBANMoを提案する。
Banmoは、多くのモノクロカジュアルビデオから高忠実な3Dモデルを、差別化可能なレンダリングフレームワークで構築する。
実際のデータセットと合成データセットでは、BANMoは人間や動物の以前の研究よりも高忠実な3D再構成を示している。
論文 参考訳(メタデータ) (2021-12-23T18:30:31Z) - Convolutional Generation of Textured 3D Meshes [34.20939983046376]
単視点自然画像からの2次元監視のみを用いて,三角形メッシュとそれに伴う高分解能テクスチャマップを生成できるフレームワークを提案する。
我々の研究の重要な貢献は、メッシュとテクスチャを2D表現として符号化することであり、意味的に整合し、2D畳み込みGANで容易にモデル化できる。
本研究では,Pascal3D+カーとCUBにおいて,モデルがクラスラベル,属性,テキストに条件付けされている場合とで,本手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-13T15:23:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。