論文の概要: Free-viewpoint Human Animation with Pose-correlated Reference Selection
- arxiv url: http://arxiv.org/abs/2412.17290v1
- Date: Mon, 23 Dec 2024 05:22:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:58:05.187782
- Title: Free-viewpoint Human Animation with Pose-correlated Reference Selection
- Title(参考訳): 詩関連参照選択による自由視点人間アニメーション
- Authors: Fa-Ting Hong, Zhan Xu, Haiyang Liu, Qinjie Lin, Luchuan Song, Zhixin Shu, Yang Zhou, Duygu Ceylan, Dan Xu,
- Abstract要約: 拡散に基づく人間アニメーションは、人物の人物像と、ポーズの列のような信号の駆動に基づいて人間キャラクターをアニメーションすることを目的としている。
既存のアプローチは、高忠実なポーズを生成することができるが、重要な視点の変化に苦慮している。
本稿では,ポーズ関連参照選択拡散ネットワークを提案する。
- 参考スコア(独自算出の注目度): 31.429327964922184
- License:
- Abstract: Diffusion-based human animation aims to animate a human character based on a source human image as well as driving signals such as a sequence of poses. Leveraging the generative capacity of diffusion model, existing approaches are able to generate high-fidelity poses, but struggle with significant viewpoint changes, especially in zoom-in/zoom-out scenarios where camera-character distance varies. This limits the applications such as cinematic shot type plan or camera control. We propose a pose-correlated reference selection diffusion network, supporting substantial viewpoint variations in human animation. Our key idea is to enable the network to utilize multiple reference images as input, since significant viewpoint changes often lead to missing appearance details on the human body. To eliminate the computational cost, we first introduce a novel pose correlation module to compute similarities between non-aligned target and source poses, and then propose an adaptive reference selection strategy, utilizing the attention map to identify key regions for animation generation. To train our model, we curated a large dataset from public TED talks featuring varied shots of the same character, helping the model learn synthesis for different perspectives. Our experimental results show that with the same number of reference images, our model performs favorably compared to the current SOTA methods under large viewpoint change. We further show that the adaptive reference selection is able to choose the most relevant reference regions to generate humans under free viewpoints.
- Abstract(参考訳): 拡散に基づく人間アニメーションは、人物の人物像と、ポーズの列のような信号の駆動に基づいて人間キャラクターをアニメーションすることを目的としている。
拡散モデルの生成能力を活用することで、既存のアプローチは高忠実なポーズを生成することができるが、特にカメラとキャラクタの距離が変化するズームイン/ズームアウトのシナリオにおいて、重要な視点の変化に苦慮している。
これにより、撮影撮影型計画やカメラ制御などの応用が制限される。
本稿では,ポーズ関連参照選択拡散ネットワークを提案する。
我々のキーとなる考え方は、重要な視点の変化がしばしば人体の外観の詳細を欠いているため、ネットワークが複数の参照イメージを入力として利用できるようにすることである。
計算コストを削減すべく,まず非整列対象とソースポーズの類似性を計算するための新しいポーズ相関モジュールを導入し,アテンションマップを利用してアニメーション生成のための重要領域を識別する適応参照選択戦略を提案する。
モデルをトレーニングするために、同じキャラクタのさまざまなショットを特徴とする公開TEDトークから大規模なデータセットをキュレートし、異なる視点で合成を学ぶのに役立てた。
実験結果から,同数の参照画像を用いて,従来のSOTA法と比較すると,大局的な視点変化が認められた。
さらに,適応参照選択は,人間を自由視点で生成するために最も関連性の高い参照領域を選択することができることを示す。
関連論文リスト
- Human-Object Interaction Detection Collaborated with Large Relation-driven Diffusion Models [65.82564074712836]
テキストと画像の拡散モデルに光を流す新しいHOI検出器であるDIFfusionHOIを紹介する。
まず、埋め込み空間における人間と物体の関係パターンの表現をインバージョンベースで学習する戦略を考案する。
これらの学習された関係埋め込みはテキストのプロンプトとして機能し、スタイア拡散モデルが特定の相互作用を記述する画像を生成する。
論文 参考訳(メタデータ) (2024-10-26T12:00:33Z) - Closely Interactive Human Reconstruction with Proxemics and Physics-Guided Adaption [64.07607726562841]
既存の人間再建アプローチは主に、正確なポーズの回復や侵入を避けることに焦点を当てている。
本研究では,モノクロ映像から密に対話的な人間を再構築する作業に取り組む。
本稿では,視覚情報の欠如を補うために,確率的行動や物理からの知識を活用することを提案する。
論文 参考訳(メタデータ) (2024-04-17T11:55:45Z) - DiffPose: SpatioTemporal Diffusion Model for Video-Based Human Pose
Estimation [16.32910684198013]
本稿では、条件付きヒートマップ生成問題として、ビデオに基づく人間のポーズ推定を定式化する新しい拡散アーキテクチャDiffPoseを提案する。
ポーズ推定タスクにおけるDiffPoseの特徴として,(i)複数のポーズ推定を組み合わせて予測精度を向上させる能力,(ii)モデルを再訓練することなく特徴改善のための反復的なステップ数を調整する能力,の2点を挙げる。
論文 参考訳(メタデータ) (2023-07-31T14:00:23Z) - MonoHuman: Animatable Human Neural Field from Monocular Video [30.113937856494726]
そこで我々は,任意のポーズの下で,ビュー一貫性と高忠実度アバターを強固に描画する新しいフレームワークMonoHumanを提案する。
我々のキーとなる洞察は、変形場を双方向の制約でモデル化し、オフザペグ情報を明示的に活用して、特徴を一貫性のある結果の推論を行うことである。
論文 参考訳(メタデータ) (2023-04-04T17:55:03Z) - Neural Novel Actor: Learning a Generalized Animatable Neural
Representation for Human Actors [98.24047528960406]
本稿では,複数の人物の多視点画像のスパース集合から,汎用的アニマタブルなニューラル表現を学習するための新しい手法を提案する。
学習された表現は、カメラのスパースセットから任意の人の新しいビューイメージを合成し、さらにユーザのポーズ制御でアニメーション化することができる。
論文 参考訳(メタデータ) (2022-08-25T07:36:46Z) - DANBO: Disentangled Articulated Neural Body Representations via Graph
Neural Networks [12.132886846993108]
高解像度モデルは、写真リアリスティックなアバターを可能にするが、エンドユーザーには利用できないスタジオ設定を必要とするコストがかかる。
私たちのゴールは、高価なスタジオのセットアップや表面追跡に頼ることなく、生画像から直接アバターを作ることです。
本稿では,2つの帰納バイアスを誘導する3段階の手法を提案する。
論文 参考訳(メタデータ) (2022-05-03T17:56:46Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - JOKR: Joint Keypoint Representation for Unsupervised Cross-Domain Motion
Retargeting [53.28477676794658]
ビデオにおける教師なしの動作は ディープ・ニューラル・ネットワークによって 大幅に進歩しました
JOKR(Joint Keypoint Representation)は、オブジェクトの事前やデータ収集を必要とせずに、ソースとターゲットのビデオの両方を処理する。
本手法は質的かつ定量的に評価し,異なる動物,異なる花,人間など,さまざまなクロスドメインシナリオを扱うことを示す。
論文 参考訳(メタデータ) (2021-06-17T17:32:32Z) - Deep Spatial Transformation for Pose-Guided Person Image Generation and
Animation [50.10989443332995]
ポーズ誘導型人物画像生成とアニメーションは、元人物画像をターゲットポーズに変換することを目的としている。
畳み込みニューラルネットワークは、入力を空間的に変換する能力の欠如によって制限される。
本稿では,機能レベルでのインプットを再構築するグローバルフロー局所アテンションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-27T08:59:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。