論文の概要: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos
- arxiv url: http://arxiv.org/abs/2312.13604v2
- Date: Tue, 30 Jul 2024 15:49:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-31 22:29:35.623046
- Title: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos
- Title(参考訳): オンラインビデオから3D動物の動きを学習するPonymation
- Authors: Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu,
- Abstract要約: 生の未ラベルのオンラインビデオから3次元動物の動きを合成する新しい手法を提案する。
我々のモデルは、トレーニングのためにポーズアノテーションや形状モデルを一切必要とせず、インターネットから得られた生のビデオクリップのコレクションから純粋に学習する。
- 参考スコア(独自算出の注目度): 47.97168047776216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ponymation, a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for motion synthesis, our model does not require any pose annotations or parametric shape models for training, and is learned purely from a collection of raw video clips obtained from the Internet. We build upon a recent work, MagicPony, which learns articulated 3D animal shapes purely from single image collections, and extend it on two fronts. First, instead of training on static images, we augment the framework with a video training pipeline that incorporates temporal regularizations, achieving more accurate and temporally consistent reconstructions. Second, we learn a generative model of the underlying articulated 3D motion sequences via a spatio-temporal transformer VAE, simply using 2D reconstruction losses without relying on any explicit pose annotations. At inference time, given a single 2D image of a new animal instance, our model reconstructs an articulated, textured 3D mesh, and generates plausible 3D animations by sampling from the learned motion latent space.
- Abstract(参考訳): 我々はPonymationを紹介した。これは生の、ラベルなしのオンラインビデオから、音声による3D動物の動きの生成モデルを学ぶための新しい方法だ。
既存のモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としないため、インターネットから得られた生ビデオクリップのコレクションから純粋に学習される。
最近の研究であるMagicPonyは、1枚の画像から3D動物の形を純粋に学習し、それを2つの面に広げる。
まず、静的画像のトレーニングの代わりに、時間的正規化を取り入れたビデオトレーニングパイプラインでフレームワークを強化し、より正確で時間的に一貫した再構築を実現します。
第2に,2次元再構成の損失を明示的なポーズアノテーションに頼ることなく,時空間変換器VAEを用いて,基礎となる3次元運動系列の生成モデルを学習する。
モデルでは,新しい動物インスタンスの1つの2次元像を推定すると,3次元メッシュを再構成し,学習された動き潜伏空間からサンプリングすることで,可塑性な3次元アニメーションを生成する。
関連論文リスト
- Learning the 3D Fauna of the Web [70.01196719128912]
3D-Faunaは,100種以上の動物種を対象に,パンカテゴリーで変形可能な3D動物モデルを共同で学習する手法である。
動物モデリングにおける重要なボトルネックの1つは、トレーニングデータの可用性の制限である。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。
論文 参考訳(メタデータ) (2024-01-04T18:32:48Z) - Virtual Pets: Animatable Animal Generation in 3D Scenes [84.0990909455833]
仮想ペット(Virtual Pet)は、3次元環境下での標的動物種に対する現実的で多様な動きをモデル化するための新しいパイプラインである。
我々はモノクロインターネットビデオを活用し、背景と背景の静的なNeRF表現に対して変形可能なNeRF表現を抽出する。
我々は,種レベルの共有テンプレート学習とビデオ毎の微調整を含む再構築戦略を開発する。
論文 参考訳(メタデータ) (2023-12-21T18:59:30Z) - AG3D: Learning to Generate 3D Avatars from 2D Image Collections [96.28021214088746]
本稿では,2次元画像から現実的な3次元人物の新たな逆生成モデルを提案する。
本手法は, 全身型3Dジェネレータを用いて, 体の形状と変形を捉える。
提案手法は, 従来の3次元・調音認識手法よりも幾何的, 外観的に優れていた。
論文 参考訳(メタデータ) (2023-05-03T17:56:24Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - DOVE: Learning Deformable 3D Objects by Watching Videos [89.43105063468077]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。
本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文 参考訳(メタデータ) (2021-07-22T17:58:10Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z) - Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。
我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文 参考訳(メタデータ) (2020-07-07T18:01:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。