論文の概要: How to Train Your Dragon: Automatic Diffusion-Based Rigging for Characters with Diverse Topologies
- arxiv url: http://arxiv.org/abs/2503.15586v1
- Date: Wed, 19 Mar 2025 17:46:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:33:34.535962
- Title: How to Train Your Dragon: Automatic Diffusion-Based Rigging for Characters with Diverse Topologies
- Title(参考訳): ドラゴンの訓練方法:多角的トポロジを持つキャラクタのための拡散式自動リギング
- Authors: Zeqi Gu, Difan Liu, Timothy Langlois, Matthew Fisher, Abe Davis,
- Abstract要約: より多様な骨格トポロジを持つキャラクタのイメージをアニメーション化するために,そのようなモデルの能力を拡張する。
本稿では,様々なトポロジをオンザフライで学習データを効率的にサンプリングする手続き型データ生成パイプラインを提案する。
微調整中、我々のモデルは目立たないターゲットキャラクタに迅速に適応し、新しいポーズのレンダリングをうまく一般化する。
- 参考スコア(独自算出の注目度): 17.66381105705158
- License:
- Abstract: Recent diffusion-based methods have achieved impressive results on animating images of human subjects. However, most of that success has built on human-specific body pose representations and extensive training with labeled real videos. In this work, we extend the ability of such models to animate images of characters with more diverse skeletal topologies. Given a small number (3-5) of example frames showing the character in different poses with corresponding skeletal information, our model quickly infers a rig for that character that can generate images corresponding to new skeleton poses. We propose a procedural data generation pipeline that efficiently samples training data with diverse topologies on the fly. We use it, along with a novel skeleton representation, to train our model on articulated shapes spanning a large space of textures and topologies. Then during fine-tuning, our model rapidly adapts to unseen target characters and generalizes well to rendering new poses, both for realistic and more stylized cartoon appearances. To better evaluate performance on this novel and challenging task, we create the first 2D video dataset that contains both humanoid and non-humanoid subjects with per-frame keypoint annotations. With extensive experiments, we demonstrate the superior quality of our results. Project page: https://traindragondiffusion.github.io/
- Abstract(参考訳): 近年の拡散法は人体画像のアニメーション化において顕著な成果を上げている。
しかし、その成功の大部分は、人間特有のボディポーズの表現と、ラベル付き実ビデオによる広範なトレーニングに基づいている。
本研究では,より多様な骨格トポロジを持つキャラクタのイメージをアニメーション化するための,そのようなモデルの拡張について述べる。
異なるポーズの文字を対応する骨格情報で示すサンプルフレーム(3-5)の少ない数を与えられた場合、我々のモデルは、新しい骨格ポーズに対応する画像を生成することができる文字のリグを素早く推測する。
本稿では,様々なトポロジをオンザフライで学習データを効率的にサンプリングする手続き型データ生成パイプラインを提案する。
私たちは、新しい骨格表現とともに、巨大なテクスチャとトポロジーの空間にまたがる明瞭な形状のモデルをトレーニングするためにそれを使用します。
そして、微調整中に、我々のモデルは、目立たないターゲットキャラクターに迅速に適応し、よりリアルでよりスタイリッシュな漫画の出現のために、新しいポーズのレンダリングによく適応する。
この新規で困難なタスクのパフォーマンスをよりよく評価するために、フレーム単位のキーポイントアノテーションを持つヒューマノイドと非ヒューマノイドの両方を含む最初の2Dビデオデータセットを作成します。
広範な実験により、結果の優れた品質を実証する。
プロジェクトページ: https://traindragondiffusion.github.io/
関連論文リスト
- Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。
多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。
本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文 参考訳(メタデータ) (2024-12-20T18:58:24Z) - DreamDance: Animating Human Images by Enriching 3D Geometry Cues from 2D Poses [57.17501809717155]
本研究では,骨格ポーズシーケンスのみを条件入力として,人間のイメージをアニメーションする新しい手法であるDreamDanceを提案する。
私たちの重要な洞察は、人間の画像は自然に複数のレベルの相関を示すということです。
我々は5Kの高品質なダンスビデオと詳細なフレームアノテーションを組み合わせたTikTok-Dance5Kデータセットを構築した。
論文 参考訳(メタデータ) (2024-11-30T08:42:13Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - DANBO: Disentangled Articulated Neural Body Representations via Graph
Neural Networks [12.132886846993108]
高解像度モデルは、写真リアリスティックなアバターを可能にするが、エンドユーザーには利用できないスタジオ設定を必要とするコストがかかる。
私たちのゴールは、高価なスタジオのセットアップや表面追跡に頼ることなく、生画像から直接アバターを作ることです。
本稿では,2つの帰納バイアスを誘導する3段階の手法を提案する。
論文 参考訳(メタデータ) (2022-05-03T17:56:46Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - S3: Neural Shape, Skeleton, and Skinning Fields for 3D Human Modeling [103.65625425020129]
歩行者の形状、ポーズ、皮膚の重みを、データから直接学習する神経暗黙関数として表現します。
各種データセットに対するアプローチの有効性を実証し,既存の最先端手法よりも再現性が優れていることを示す。
論文 参考訳(メタデータ) (2021-01-17T02:16:56Z) - Liquid Warping GAN with Attention: A Unified Framework for Human Image
Synthesis [58.05389586712485]
我々は、人間の動きの模倣、外見の移入、新しい視点の合成など、人間の画像合成に取り組む。
本稿では,ポーズと形状を乱す3次元ボディーメッシュ回収モジュールを提案する。
我々はまた、人間の動きの模倣、外観伝達、新しいビュー合成を評価するために、新しいデータセット、すなわちiPERデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-18T02:57:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。