Fugu-MT 論文翻訳(概要): Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos

論文の概要: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos

arxiv url: http://arxiv.org/abs/2312.13604v2
Date: Tue, 30 Jul 2024 15:49:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-31 22:29:35.623046
Title: Ponymation: Learning 3D Animal Motions from Unlabeled Online Videos
Title（参考訳）: オンラインビデオから3D動物の動きを学習するPonymation
Authors: Keqiang Sun, Dor Litvak, Yunzhi Zhang, Hongsheng Li, Jiajun Wu, Shangzhe Wu,
Abstract要約: 生の未ラベルのオンラインビデオから3次元動物の動きを合成する新しい手法を提案する。我々のモデルは、トレーニングのためにポーズアノテーションや形状モデルを一切必要とせず、インターネットから得られた生のビデオクリップのコレクションから純粋に学習する。
参考スコア（独自算出の注目度）: 47.97168047776216
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce Ponymation, a new method for learning a generative model of articulated 3D animal motions from raw, unlabeled online videos. Unlike existing approaches for motion synthesis, our model does not require any pose annotations or parametric shape models for training, and is learned purely from a collection of raw video clips obtained from the Internet. We build upon a recent work, MagicPony, which learns articulated 3D animal shapes purely from single image collections, and extend it on two fronts. First, instead of training on static images, we augment the framework with a video training pipeline that incorporates temporal regularizations, achieving more accurate and temporally consistent reconstructions. Second, we learn a generative model of the underlying articulated 3D motion sequences via a spatio-temporal transformer VAE, simply using 2D reconstruction losses without relying on any explicit pose annotations. At inference time, given a single 2D image of a new animal instance, our model reconstructs an articulated, textured 3D mesh, and generates plausible 3D animations by sampling from the learned motion latent space.
Abstract（参考訳）: 我々はPonymationを紹介した。これは生の、ラベルなしのオンラインビデオから、音声による3D動物の動きの生成モデルを学ぶための新しい方法だ。既存のモーション合成手法とは異なり、我々のモデルはポーズアノテーションやパラメトリック形状モデルを必要としないため、インターネットから得られた生ビデオクリップのコレクションから純粋に学習される。最近の研究であるMagicPonyは、1枚の画像から3D動物の形を純粋に学習し、それを2つの面に広げる。まず、静的画像のトレーニングの代わりに、時間的正規化を取り入れたビデオトレーニングパイプラインでフレームワークを強化し、より正確で時間的に一貫した再構築を実現します。第2に,2次元再構成の損失を明示的なポーズアノテーションに頼ることなく,時空間変換器VAEを用いて,基礎となる3次元運動系列の生成モデルを学習する。モデルでは,新しい動物インスタンスの1つの2次元像を推定すると,3次元メッシュを再構成し,学習された動き潜伏空間からサンプリングすることで,可塑性な3次元アニメーションを生成する。

関連論文リスト

Restage4D: Reanimating Deformable 3D Reconstruction from a Single Video [56.781766315691854]
ビデオ条件付き4D再生のための幾何学保存パイプラインである textbfRestage4D を紹介する。 DAVIS と PointOdyssey 上のRestage4D の有効性を検証し,幾何整合性,運動品質,3次元追跡性能の向上を実証した。
論文参考訳（メタデータ） (2025-08-08T21:31:51Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
Animal Avatars: Reconstructing Animatable 3D Animals from Casual Videos [26.65191922949358]
モノクロビデオからアニマタブルな犬用アバターを構築する方法を提案する。動物は様々な(予測不可能な)非剛体運動を示し、外観の詳細を持っているため、これは難しい。我々は,動物のポーズの変化と外観を共同で解決する4Dソリューションを用いて,映像フレームをリンクする手法を開発した。
論文参考訳（メタデータ） (2024-03-25T18:41:43Z)
Learning 3D Photography Videos via Self-supervised Diffusion on Single Images [105.81348348510551]
3D写真は、静止画を3D視覚効果のあるビデオにレンダリングする。既存のアプローチは通常、まず単眼深度推定を行い、次に様々な視点で入力フレームを後続のフレームに描画する。我々は、入力オブジェクトの空間と時間を拡張する、新しいタスク、out-animationを提案する。
論文参考訳（メタデータ） (2023-02-21T16:18:40Z)
Self-Supervised 3D Human Pose Estimation in Static Video Via Neural Rendering [5.568218439349004]
2D画像から3Dの人間のポーズを推定することは、コンピュータビジョンの分野における困難かつ長年の問題である。本研究では,1人の人物を含む2次元映像から3次元ポーズを推定する手法の予備的な結果を示す。
論文参考訳（メタデータ） (2022-10-10T09:24:07Z)
DOVE: Learning Deformable 3D Objects by Watching Videos [89.43105063468077]
本研究では,鳥の単一2次元画像から3次元標準形状,変形,視点,テクスチャの予測を学習するDOVEを提案する。本手法は時間的に一貫した3次元形状と変形を再構成し,任意の視点から鳥をアニメーション化し再レンダリングする。
論文参考訳（メタデータ） (2021-07-22T17:58:10Z)
LASR: Learning Articulated Shape Reconstruction from a Monocular Video [97.92849567637819]
1つのビデオから3d形状を学習するためのテンプレートフリー手法を提案する。本手法は,人間,動物,未知のクラスの映像から,非剛体3D構造を忠実に再構築する。
論文参考訳（メタデータ） (2021-05-06T21:41:11Z)
Vid2Actor: Free-viewpoint Animatable Person Synthesis from Video in the Wild [22.881898195409885]
対象者の「夢中」映像が与えられた場合、映像中の人物のアニマタブルなモデルを再構築する。出力モデルは、明示的な3dメッシュ再構成なしに、学習されたコントロールを介して、任意のカメラビューに任意のボディポーズでレンダリングすることができる。
論文参考訳（メタデータ） (2020-12-23T18:50:42Z)
Online Adaptation for Consistent Mesh Reconstruction in the Wild [147.22708151409765]
入ってくるテストビデオに適用する自己教師型オンライン適応問題として、ビデオベースの再構成を行う。我々は,野生で捕獲された動物を含む非剛体物体のビデオから,時間的に一貫した信頼性の高い3D構造を復元できることを実証した。
論文参考訳（メタデータ） (2020-12-06T07:22:27Z)
Going beyond Free Viewpoint: Creating Animatable Volumetric Video of Human Performances [7.7824496657259665]
本稿では,人間の演奏の高品質な映像コンテンツ作成のためのエンドツーエンドパイプラインを提案する。セマンティックエンリッチメントと幾何学的アニメーション能力は、3Dデータに時間的一貫性を確立することによって達成される。ポーズ編集では、キャプチャしたデータを可能な限り活用し、キャプチャしたフレームをキネマティックに変形して所望のポーズに適合させる。
論文参考訳（メタデータ） (2020-09-02T09:46:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。