論文の概要: AnyAct: Towards Human Reenactment of Character Motion From Video
- arxiv url: http://arxiv.org/abs/2605.15497v2
- Date: Tue, 19 May 2026 10:09:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-20 15:03:08.366172
- Title: AnyAct: Towards Human Reenactment of Character Motion From Video
- Title(参考訳): AnyAct:人間による動画のキャラクターの動きの再現を目指して
- Authors: Liuhan Chen, Lei Zhong, Jiewei Wang, Qin Shuai, Li Yuan, Leidong Fan, Qing Li, Kanglin Liu,
- Abstract要約: 非人間的な人物のモノクラー映像から、初期人間の再現を導出する問題を考察する。
局所的な2D関節運動から条件付き人間の動作生成として、キャラクタ駆動による人間の再現を定式化するAnyActを提案する。
- 参考スコア(独自算出の注目度): 27.183557465520423
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We study the problem of directly deriving an initial human reenactment from a monocular video of a non-human character. Our goal is not to reconstruct the source character itself but to reinterpret its motion as a plausible and editable human performance for downstream animation authoring. This task is challenging because existing video-based motion capture methods are largely restricted to human-centric structural spaces, while motion retargeting methods typically require structured 3D source motions and known source topologies. Our key insight is that sparse local articulated motion cues can preserve essential dynamics across large structural differences, providing a stable bridge from character video to human reenactment. Based on this observation, we propose AnyAct, which formulates character-video-driven human reenactment as conditional human motion generation from transferable sparse local 2D articulated motion. To make this practical, we introduce three key designs: human-motion-only supervision via augmented 3D-to-2D projection, progressive 3D-to-2D training to alleviate conditioning ambiguity, and global-local motion decoupling for reliable local motion control. We further construct a benchmark primarily covering diverse non-human character videos. Experiments on the benchmark show that AnyAct produces high-fidelity initial human reenactments that preserve the essential dynamics of the characters in reference videos, and further ablation studies validate the effectiveness of its core designs.
- Abstract(参考訳): 本研究では,人間以外の人物のモノクロ映像から,初期人間の再現を直接導出する問題について検討する。
我々のゴールは、ソースキャラクタ自体を再構築するのではなく、その動作を、ダウンストリームアニメーションオーサリングのための、可塑性で編集可能な人間のパフォーマンスとして再解釈することである。
この課題は、既存のビデオベースのモーションキャプチャー手法が主に人間中心の構造空間に制限されているのに対して、モーションリターゲティング手法は典型的に構造化された3Dソースモーションと既知のソーストポロジを必要とするため、難しい。
我々の重要な洞察は、局所的な明瞭な動きの手がかりは、大きな構造的違いにまたがって重要なダイナミクスを保ち、キャラクタビデオから人間への安定したブリッジを提供することができるということである。
そこで本研究では,移動可能な局所的な2次元関節運動から条件付き人間の動作生成として,文字駆動型人間再現を定式化するAnyActを提案する。
これを実現するために,3D-to-2Dプロジェクションによる人力のみの監視,条件のあいまいさを軽減するプログレッシブ3D-to-2Dトレーニング,信頼性の高い局所運動制御のためのグローバル・ローカル・モーション・デカップリングという3つの重要な設計を紹介した。
さらに,多種多様な非人間的キャラクタ映像を対象としたベンチマークを構築した。
ベンチマーク実験により、AnyActは参照ビデオにおける文字の本質的ダイナミクスを保存した高忠実な初期人間の再現を発生し、さらにそのコア設計の有効性を検証することが示されている。
関連論文リスト
- PhyMotion: Structured 3D Motion Reward for Physics-Grounded Human Video Generation [75.96085587438279]
既存のビデオ報酬は主に2D知覚信号に依存しており、3Dの身体状態、接触状態、人間の関節の動きに基づくダイナミクスを明示的にモデル化する必要はない。
物理シミュレータにおける3次元人体軌道の復元を基礎とした構造的,きめ細かな運動報酬であるPhyMotionを提案し,運動の質を多次元の物理的実現性に沿って評価する。
実験により、PhyMotionは既存の報酬の定式化よりも人間の判断と強い相関性が得られることが示された。
論文 参考訳(メタデータ) (2026-05-14T02:12:13Z) - AnyLift: Scaling Motion Reconstruction from Internet Videos via 2D Diffusion [41.002383749585924]
インターネットビデオから3次元の人間の動きとHOIを再構成する2次元拡散を利用した2段階フレームワークを提案する。
最初の段階では,インターネットビデオから抽出した2Dキーポイントを利用して,各領域の多視点2Dモーションデータを合成する。
第2段階では、領域固有の合成データに基づいて、カメラ条件のマルチビュー2Dモーション拡散モデルを訓練し、世界空間における3Dモーションと3DHOIを復元する。
論文 参考訳(メタデータ) (2026-04-20T05:15:38Z) - Move-in-2D: 2D-Conditioned Human Motion Generation [54.067588636155115]
そこで我々は,シーンイメージに条件付けされた人間の動作シーケンスを生成する新しい手法であるMove-in-2Dを提案する。
本手法はシーンイメージとテキストプロンプトの両方を入力として受け入れ,シーンに合わせた動作シーケンスを生成する。
論文 参考訳(メタデータ) (2024-12-17T18:58:07Z) - Universal Humanoid Motion Representations for Physics-Based Control [71.46142106079292]
物理学に基づくヒューマノイド制御のための総合的な運動スキルを含む普遍的な運動表現を提案する。
まず、大きな非構造運動データセットから人間の動きをすべて模倣できる動き模倣機を学習する。
次に、模倣者から直接スキルを蒸留することで、動作表現を作成します。
論文 参考訳(メタデータ) (2023-10-06T20:48:43Z) - MotionBERT: A Unified Perspective on Learning Human Motion
Representations [46.67364057245364]
本研究では,大規模・異種データ資源から人の動き表現を学習することで,人間中心のビデオタスクに取り組むための統一的な視点を示す。
本研究では,ノイズのある部分的な2次元観測から基礎となる3次元運動を復元するために,モーションエンコーダを訓練する事前学習段階を提案する。
動作エンコーダをDST(Dual-stream Spatio-temporal Transformer)ニューラルネットワークで実装する。
論文 参考訳(メタデータ) (2022-10-12T19:46:25Z) - MoCaNet: Motion Retargeting in-the-wild via Canonicalization Networks [77.56526918859345]
そこで本研究では,制御された環境から3次元動作タスクを実現する新しいフレームワークを提案する。
モーションキャプチャシステムや3D再構成手順を使わずに、2Dモノクロ映像のキャラクタから3Dキャラクタへの体動を可能にする。
論文 参考訳(メタデータ) (2021-12-19T07:52:05Z) - Action2video: Generating Videos of Human 3D Actions [31.665831044217363]
我々は、所定のアクションカテゴリから多様で自然な人間の動きのビデオを生成するという、興味深いが挑戦的な課題に取り組むことを目的としている。
重要な問題は、視覚的な外観で現実的な複数の異なる動き列を合成する能力にある。
Action2motionallyは、所定のアクションカテゴリのもっともらしい3Dポーズシーケンスを生成し、モーション2ビデオによって処理され、レンダリングされ、2Dビデオを形成する。
論文 参考訳(メタデータ) (2021-11-12T20:20:37Z) - Action2Motion: Conditioned Generation of 3D Human Motions [28.031644518303075]
我々は3Dで人間の動作シーケンスを生成することを目的としている。
それぞれのサンプル配列は、自然界の体動力学に忠実に類似している。
新しい3DモーションデータセットであるHumanAct12も構築されている。
論文 参考訳(メタデータ) (2020-07-30T05:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。