論文の概要: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos
- arxiv url: http://arxiv.org/abs/2312.13604v1
- Date: Thu, 21 Dec 2023 06:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 15:53:42.267631
- Title: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos
- Title(参考訳): オンラインビデオから3D動物の動きを学習するPonymation
- Authors: Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu,
Shangzhe Wu
- Abstract要約: 生の未ラベルのオンラインビデオから3次元動物の動きを合成する新しい手法を提案する。
我々のモデルは、トレーニングのためにポーズアノテーションや形状モデルを一切必要とせず、インターネットから得られた生のビデオクリップのコレクションから純粋に学習する。
- 参考スコア(独自算出の注目度): 50.83155160955368
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Ponymation, a new method for learning a generative model of
articulated 3D animal motions from raw, unlabeled online videos. Unlike
existing approaches for motion synthesis, our model does not require any pose
annotations or parametric shape models for training, and is learned purely from
a collection of raw video clips obtained from the Internet. We build upon a
recent work, MagicPony, which learns articulated 3D animal shapes purely from
single image collections, and extend it on two fronts. First, instead of
training on static images, we augment the framework with a video training
pipeline that incorporates temporal regularizations, achieving more accurate
and temporally consistent reconstructions. Second, we learn a generative model
of the underlying articulated 3D motion sequences via a spatio-temporal
transformer VAE, simply using 2D reconstruction losses without relying on any
explicit pose annotations. At inference time, given a single 2D image of a new
animal instance, our model reconstructs an articulated, textured 3D mesh, and
generates plausible 3D animations by sampling from the learned motion latent
space.
- Abstract(参考訳): Ponymationは生の、ラベルなしのオンラインビデオから、音声による3D動物の動きの生成モデルを学ぶための新しい方法である。
既存のモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としないため、インターネットから得られた生ビデオクリップのコレクションから純粋に学習される。
最近の研究であるMagicPonyは、1枚の画像から3D動物の形を純粋に学習し、それを2つの面に広げる。
まず、静的画像のトレーニングではなく、時間的正規化を組み込んだビデオトレーニングパイプラインで、より正確で時間的に一貫性のある再構築を実現します。
第2に,2次元再構成の損失を明示的なポーズアノテーションに頼ることなく,時空間変換器VAEを用いて,基礎となる3次元運動系列の生成モデルを学習する。
モデルでは,新しい動物インスタンスの1つの2次元像を推定すると,3次元メッシュを再構成し,学習された動き潜伏空間からサンプリングすることで,可塑性な3次元アニメーションを生成する。
関連論文リスト
- Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。
その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文 参考訳(メタデータ) (2024-11-20T18:58:31Z) - Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos [26.65191922949358]
モノクロビデオからアニマタブルな犬用アバターを構築する方法を提案する。
動物は様々な(予測不可能な)非剛体運動を示し、外観の詳細を持っているため、これは難しい。
我々は,動物のポーズの変化と外観を共同で解決する4Dソリューションを用いて,映像フレームをリンクする手法を開発した。
論文 参考訳(メタデータ) (2024-03-25T18:41:43Z) - Learning 3D Photography Videos via Self-supervised Diffusion on Single
Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。
既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。
我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文 参考訳(メタデータ) (2023-02-21T16:18:40Z) - Self-Supervised 3D Human Pose Estimation in Static Video Via Neural
Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。
本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文 参考訳(メタデータ) (2022-10-10T09:24:07Z) - DOVE: Learning Deformable 3D Objects by Watching Videos [89.43105063468077]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。
本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文 参考訳(メタデータ) (2021-07-22T17:58:10Z) - LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。
本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文 参考訳(メタデータ) (2021-05-06T21:41:11Z) - Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the
Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。
出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文 参考訳(メタデータ) (2020-12-23T18:50:42Z) - Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。
我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文 参考訳(メタデータ) (2020-12-06T07:22:27Z) - Going beyond Free Viewpoint: Creating Animatable Volumetric Video of
Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。
セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。
ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文 参考訳(メタデータ) (2020-09-02T09:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。