論文の概要: 4D-Animal: Freely Reconstructing Animatable 3D Animals from Videos
- arxiv url: http://arxiv.org/abs/2507.10437v1
- Date: Mon, 14 Jul 2025 16:24:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 18:48:25.453614
- Title: 4D-Animal: Freely Reconstructing Animatable 3D Animals from Videos
- Title(参考訳): 4Dアニメーション:動画からアニメーション可能な3D動物を自由に再現する
- Authors: Shanshan Zhong, Jiawei Peng, Zehan Zheng, Zhongzhan Huang, Wufei Ma, Guofeng Zhang, Qihao Liu, Alan Yuille, Jieneng Chen,
- Abstract要約: 本報告では,ビデオからアニマタブルな3D動物を疎いキーポイントアノテーションを必要とせずに再構成する新しいフレームワークである4D-Animalを提案する。
提案手法では,2次元表現をSMALパラメータにマッピングする高密度特徴ネットワークを導入し,フィッティングプロセスの効率性と安定性を両立させる。
- 参考スコア(独自算出の注目度): 15.063635374924209
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing methods for reconstructing animatable 3D animals from videos typically rely on sparse semantic keypoints to fit parametric models. However, obtaining such keypoints is labor-intensive, and keypoint detectors trained on limited animal data are often unreliable. To address this, we propose 4D-Animal, a novel framework that reconstructs animatable 3D animals from videos without requiring sparse keypoint annotations. Our approach introduces a dense feature network that maps 2D representations to SMAL parameters, enhancing both the efficiency and stability of the fitting process. Furthermore, we develop a hierarchical alignment strategy that integrates silhouette, part-level, pixel-level, and temporal cues from pre-trained 2D visual models to produce accurate and temporally coherent reconstructions across frames. Extensive experiments demonstrate that 4D-Animal outperforms both model-based and model-free baselines. Moreover, the high-quality 3D assets generated by our method can benefit other 3D tasks, underscoring its potential for large-scale applications. The code is released at https://github.com/zhongshsh/4D-Animal.
- Abstract(参考訳): ビデオからアニマタブルな3D動物を再構築する既存の方法は、通常、パラメトリックモデルに適合するスパースセマンティックキーポイントに依存している。
しかし、そのようなキーポイントを得るのは労働集約的であり、限られた動物データに基づいて訓練されたキーポイント検出器は信頼できないことが多い。
そこで本研究では,少ないキーポイントアノテーションを必要とせず,ビデオからアニマタブルな3D動物を再構成する新しいフレームワークである4D-Animalを提案する。
提案手法では,2次元表現をSMALパラメータにマッピングする高密度特徴ネットワークを導入し,フィッティングプロセスの効率性と安定性を両立させる。
さらに,事前学習した2次元視覚モデルからシルエット,部分レベル,画素レベル,時間的手がかりを統合し,フレーム間の正確かつ時間的整合的な再構成を生成する階層的アライメント戦略を開発した。
4D-アニマルはモデルベースとモデルフリーのベースラインの両方で優れた性能を示す。
さらに,本手法によって生成された高品質な3Dアセットは,他の3Dタスクの恩恵を受けることができる。
コードはhttps://github.com/zhongshsh/4D-Animal.comで公開されている。
関連論文リスト
- ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - Ponymation: Learning Articulated 3D Animal Motions from Unlabeled Online Videos [47.97168047776216]
そこで,本研究では,生の未表示オンラインビデオから3次元動物運動の合成モデルを学習するための新しい手法を提案する。
我々のモデルは、自己教師付き画像の特徴から抽出した意味的対応を利用して、ラベルなしのウェブビデオクリップの集合から純粋に学習する。
論文 参考訳(メタデータ) (2023-12-21T06:44:18Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [111.16358607889609]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Reconstructing Animatable Categories from Videos [65.14948977749269]
アニマタブルな3Dモデルの構築は、3Dスキャン、精巧な登録、手動リグの必要性のために難しい。
本稿では,一眼レフビデオからカテゴリ3Dモデルを構築するRACについて述べる。
私たちは、人間、猫、犬の3Dモデルが50-100のインターネットビデオから学習できることを示します。
論文 参考訳(メタデータ) (2023-05-10T17:56:21Z) - Common Pets in 3D: Dynamic New-View Synthesis of Real-Life Deformable
Categories [80.30216777363057]
コモンペットを3Dで紹介する(CoP3D)。
テスト時には、目に見えないオブジェクトの少数のビデオフレームが与えられたとき、Tracker-NeRFはその3Dポイントの軌跡を予測し、新しいビューを生成する。
CoP3Dの結果は、既存のベースラインよりも、厳密でない新規ビュー合成性能が著しく向上した。
論文 参考訳(メタデータ) (2022-11-07T22:42:42Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - DensePose 3D: Lifting Canonical Surface Maps of Articulated Objects to
the Third Dimension [71.71234436165255]
DensePose 3Dは2次元画像アノテーションのみから弱い教師付きで再構築を学習できる手法である。
3Dスキャンを必要としないため、DensePose 3Dは異なる動物種などの幅広いカテゴリーの学習に利用できる。
我々は,人間と動物のカテゴリーの合成データと実データの両方をベースラインとして,最先端の非剛体構造と比較し,顕著な改善を示した。
論文 参考訳(メタデータ) (2021-08-31T18:33:55Z) - ZooBuilder: 2D and 3D Pose Estimation for Quadrupeds Using Synthetic
Data [2.3661942553209236]
2Dと3Dのポーズ推定モデルを合成データでトレーニングし、ZooBuilderと呼ばれるエンドツーエンドのパイプラインを配置します。
パイプラインは野生動物のビデオとして入力され、動物の骨格の各関節の対応する2Dと3D座標を生成する。
論文 参考訳(メタデータ) (2020-09-01T07:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。