論文の概要: MotionWeaver: Holistic 4D-Anchored Framework for Multi-Humanoid Image Animation
- arxiv url: http://arxiv.org/abs/2602.13326v1
- Date: Wed, 11 Feb 2026 03:03:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.919793
- Title: MotionWeaver: Holistic 4D-Anchored Framework for Multi-Humanoid Image Animation
- Title(参考訳): MotionWeaver:マルチヒューマノイド画像アニメーションのためのホロスティック4Dアンコレッドフレームワーク
- Authors: Xirui Hu, Yanbo Ding, Jiahao Wang, Tingting Shi, Yali Wang, Guo Zhi Zhi, Weizhan Zhang,
- Abstract要約: MotionWeaverは、マルチヒューマノイド画像アニメーションのためのエンドツーエンドフレームワークである。
我々は、同一性に依存しない動きを抽出し、対応する文字に明示的に結合する統合された動き表現を導入する。
また,ビデオラテントで映像表現を融合するために,共有4次元空間を構成する包括的4次元アンコールパラダイムを提案する。
- 参考スコア(独自算出の注目度): 22.502601281241724
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Character image animation, which synthesizes videos of reference characters driven by pose sequences, has advanced rapidly but remains largely limited to single-human settings. Existing methods struggle to generalize to multi-humanoid scenarios, which involve diverse humanoid forms, complex interactions, and frequent occlusions. We address this gap with two key innovations. First, we introduce unified motion representations that extract identity-agnostic motions and explicitly bind them to corresponding characters, enabling generalization across diverse humanoid forms and seamless extension to multi-humanoid scenarios. Second, we propose a holistic 4D-anchored paradigm that constructs a shared 4D space to fuse motion representations with video latents, and further reinforces this process with hierarchical 4D-level supervision to better handle interactions and occlusions. We instantiate these ideas in MotionWeaver, an end-to-end framework for multi-humanoid image animation. To support this setting, we curate a 46-hour dataset of multi-human videos with rich interactions, and construct a 300-video benchmark featuring paired humanoid characters. Quantitative and qualitative experiments demonstrate that MotionWeaver not only achieves state-of-the-art results on our benchmark but also generalizes effectively across diverse humanoid forms, complex interactions, and challenging multi-humanoid scenarios.
- Abstract(参考訳): ポーズシーケンスによって駆動される参照文字の映像を合成するキャラクタ画像アニメーションは急速に進歩してきたが、それでも大半はシングルヒューマン設定に限られている。
既存の方法は、多様なヒューマノイド形式、複雑な相互作用、頻繁な閉塞を含むマルチヒューマノイドシナリオへの一般化に苦慮している。
このギャップを2つの重要なイノベーションで解決します。
まず、同一性に依存しない動きを抽出し、それに対応する文字に明示的に結合する統合された動き表現を導入し、多様なヒューマノイド形式をまたいだ一般化とマルチヒューマノイドシナリオへのシームレスな拡張を可能にした。
第2に,ビデオラテントで映像表現を融合する共有4次元空間を構築し,インタラクションやオクルージョンの処理をより良くするための階層的な4Dレベルの監視により,このプロセスをさらに強化する,全体論的4Dアンコールパラダイムを提案する。
我々はこれらのアイデアを、マルチヒューマノイド画像アニメーションのエンドツーエンドフレームワークであるMotionWeaverでインスタンス化する。
この設定をサポートするために、多人数ビデオの46時間データセットをリッチなインタラクションでキュレートし、ペア付きヒューマノイドキャラクタを特徴とする300ビデオベンチマークを構築した。
定量的および定性的な実験により、MotionWeaverは、我々のベンチマークで最先端の結果を達成するだけでなく、多様なヒューマノイド形式、複雑な相互作用、挑戦的なマルチヒューマノイドシナリオを効果的に一般化することを示した。
関連論文リスト
- MultiAnimate: Pose-Guided Image Animation Made Extensible [44.163219649465866]
Pose-Guided Human Image animationは、ポーズの連続によって駆動される参照キャラクタのリアルなビデオを合成することを目的としている。
映像生成のための現代拡散変換器上に構築されたマルチ文字画像アニメーションフレームワークを提案する。
提案手法は,既存の拡散ベースラインを超越したマルチキャラクタ画像アニメーションにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-25T05:06:58Z) - Human Video Generation from a Single Image with 3D Pose and View Control [62.676151243249556]
HVG(Human Video Generation in 4D)は、1つの画像から高画質のマルチビュー、時間的コヒーレントな人間の映像を生成できる潜時ビデオ拡散モデルである。
1)新しい2次元骨地図を通して3次元関節の解剖学的関係を捉え、3次元情報を導入して自己閉塞を解消するArticulated Pose Modulation、(ii)参照画像とフレーム間安定性のためのポーズシーケンス間の多視点一貫性と整合性を保証するView and Temporal Alignment、(iii)
論文 参考訳(メタデータ) (2026-02-24T18:42:20Z) - MoSA: Motion-Coherent Human Video Generation via Structure-Appearance Decoupling [107.8379802891245]
本稿では,人間の映像生成過程を2つの構成要素,すなわち構造生成と外観生成に分解するMOSAを提案する。
MoSAは、ほとんどの評価指標で既存のアプローチを大幅に上回っている。
また,既存の人的ビデオデータセットよりも複雑で多様な動きを特徴とする大規模な人的ビデオデータセットも提案する。
論文 参考訳(メタデータ) (2025-08-24T15:20:24Z) - InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions [70.63690961790573]
リッチなマルチモーダル条件を持つエンドツーエンドの人間アニメーションは,近年顕著な進歩を遂げている。
既存のほとんどの手法は、単一の主題をアニメーションし、グローバルな方法で条件を注入するしかなかった。
本稿では,各アイデンティティの時間的フットプリントに対する条件の強い領域特異的な結合を強制する,新しい枠組みを提案する。
論文 参考訳(メタデータ) (2025-06-11T17:57:09Z) - Multi-identity Human Image Animation with Structural Video Diffusion [73.38728096088732]
emph Structure Video Diffusionは、現実的なマルチヒューマンビデオを生成するための新しいフレームワークである。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Animating the Uncaptured: Humanoid Mesh Animation with Video Diffusion Models [71.78723353724493]
ヒューマノイド文字のアニメーションは、様々なグラフィックス応用において不可欠である。
入力された静的な3次元ヒューマノイドメッシュの4次元アニメーションシーケンスを合成する手法を提案する。
論文 参考訳(メタデータ) (2025-03-20T10:00:22Z) - Harmony4D: A Video Dataset for In-The-Wild Close Human Interactions [27.677520981665012]
Harmony4Dは、レスリング、ダンス、MMAなどのフィールド内アクティビティを特徴とする人間と人間のインタラクションのためのデータセットである。
我々は、フレキシブルなマルチビューキャプチャシステムを用いて、これらのダイナミックなアクティビティを記録し、人間検出、追跡、2D/3Dポーズ推定、および密接な相互作用のある被験者のためのメッシュ回復のためのアノテーションを提供する。
論文 参考訳(メタデータ) (2024-10-27T00:05:15Z) - AvatarGO: Zero-shot 4D Human-Object Interaction Generation and Animation [60.5897687447003]
AvatarGOはテキスト入力からリアルな4D HOIシーンを生成するために設計された新しいフレームワークである。
我々のフレームワークは、コヒーレントな構成運動を生成するだけでなく、問題に対処する上でより堅牢性を示す。
4Dアバターをオブジェクトインタラクションで合成する最初の試みとして、AvatarGOが人間中心の4Dコンテンツを作るための新しい扉を開くことを願っている。
論文 参考訳(メタデータ) (2024-10-09T17:58:56Z) - MultiPly: Reconstruction of Multiple People from Monocular Video in the Wild [32.6521941706907]
モノクラーインザワイルドビデオから3Dで複数の人物を再構成する新しいフレームワークであるMultiPlyを提案する。
まず、シーン全体の階層化されたニューラル表現を定義し、個々の人間と背景モデルで合成する。
階層化可能なボリュームレンダリングを通じて,ビデオから階層化ニューラル表現を学習する。
論文 参考訳(メタデータ) (2024-06-03T17:59:57Z) - Human4DiT: 360-degree Human Video Generation with 4D Diffusion Transformer [38.85054820740242]
1枚の画像から高品質でコヒーレントな人間ビデオを生成するための新しい手法を提案する。
本フレームワークは,グローバル相関を捉える拡散変圧器の強度と,正確な条件注入を行うCNNの強度を組み合わせたものである。
我々は,360度リアルでコヒーレントな人間のモーションビデオを合成する手法の能力を実証した。
論文 参考訳(メタデータ) (2024-05-27T17:53:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。