論文の概要: CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
- arxiv url: http://arxiv.org/abs/2601.11096v1
- Date: Fri, 16 Jan 2026 08:53:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-19 20:21:50.418303
- Title: CoDance: An Unbind-Rebind Paradigm for Robust Multi-Subject Animation
- Title(参考訳): CoDance:ロバストなマルチオブジェクトアニメーションのためのUnbind-Rebindパラダイム
- Authors: Shuai Tan, Biao Gong, Ke Ma, Yutong Feng, Qiyuan Zhang, Yan Wang, Yujun Shen, Hengshuang Zhao,
- Abstract要約: CoDanceはUnbind-Rebindフレームワークで、任意の被写体数、型、空間構成のアニメーションを単一のポーズシーケンスで指定できる。
そこで,テキストプロンプトからのセマンティックガイダンスと被写体マスクからの空間ガイダンスを利用して,学習した動作を意図した文字に指示するRebindモジュールを考案した。
CoDanceBenchと既存のデータセットの実験は、CoDanceがSOTAのパフォーマンスを達成し、多様な対象と空間的レイアウトにわたって顕著な一般化を示すことを示している。
- 参考スコア(独自算出の注目度): 95.46061771820412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Character image animation is gaining significant importance across various domains, driven by the demand for robust and flexible multi-subject rendering. While existing methods excel in single-person animation, they struggle to handle arbitrary subject counts, diverse character types, and spatial misalignment between the reference image and the driving poses. We attribute these limitations to an overly rigid spatial binding that forces strict pixel-wise alignment between the pose and reference, and an inability to consistently rebind motion to intended subjects. To address these challenges, we propose CoDance, a novel Unbind-Rebind framework that enables the animation of arbitrary subject counts, types, and spatial configurations conditioned on a single, potentially misaligned pose sequence. Specifically, the Unbind module employs a novel pose shift encoder to break the rigid spatial binding between the pose and the reference by introducing stochastic perturbations to both poses and their latent features, thereby compelling the model to learn a location-agnostic motion representation. To ensure precise control and subject association, we then devise a Rebind module, leveraging semantic guidance from text prompts and spatial guidance from subject masks to direct the learned motion to intended characters. Furthermore, to facilitate comprehensive evaluation, we introduce a new multi-subject CoDanceBench. Extensive experiments on CoDanceBench and existing datasets show that CoDance achieves SOTA performance, exhibiting remarkable generalization across diverse subjects and spatial layouts. The code and weights will be open-sourced.
- Abstract(参考訳): 文字画像のアニメーションは、堅牢で柔軟なマルチオブジェクトレンダリングの需要によって、さまざまな領域で重要になっている。
既存の手法は1対1のアニメーションでは優れているが、任意の対象数、多様なキャラクタタイプ、参照画像と駆動ポーズの間の空間的不整合を扱うのに苦労している。
これらの制限は、ポーズと参照の間に厳密なピクセルワイドなアライメントを強いる厳密な空間的結合と、意図した対象に対して常に動きを結合できないことに起因する。
このような課題に対処するため,我々は,任意の被写体数,型,空間構成のアニメーションを可能にする新しいUnbind-RebindフレームワークであるCoDanceを提案する。
具体的には、Unbindモジュールは、ポーズと参照の間の剛性空間的結合を断ち切るために、ポーズと潜在特徴の両方に確率的摂動を導入することで、新しいポーズシフトエンコーダを用いて、位置に依存しない動き表現をモデルに学習させる。
そこで,テキストプロンプトからのセマンティックガイダンスと被写体マスクからの空間ガイダンスを利用して,学習した動作を意図した文字に指示するRebindモジュールを考案した。
さらに、包括的評価を容易にするために、新しいマルチオブジェクトCoDanceBenchを導入する。
CoDanceBenchと既存のデータセットの大規模な実験は、CoDanceがSOTAのパフォーマンスを達成し、多様な対象と空間的レイアウトに顕著な一般化を示すことを示している。
コードと重みはオープンソースになる予定だ。
関連論文リスト
- One-to-All Animation: Alignment-Free Character Animation and Image Pose Transfer [36.26551019954542]
高忠実度キャラクタアニメーションと画像ポーズ転送のためのフレームワークであるOne-to-All Animationを提案する。
空間的に不整合な参照を扱うために,自己監督型アウトペイントタスクとしてトレーニングを再構成する。
また、包括的アイデンティティ特徴抽出のための参照抽出器を設計する。
論文 参考訳(メタデータ) (2025-11-28T07:30:10Z) - DynamiCtrl: Rethinking the Basic Structure and the Role of Text for High-quality Human Image Animation [63.781450025764904]
ビデオDiTアーキテクチャにおける人間のアニメーションのための新しいフレームワークであるDynamiCtrlを提案する。
我々は、人間の画像や運転ポーズに共有のVAEエンコーダを使用し、それらを共通の潜在空間に統一する。
また、グローバルな意味的コンテキストを提供するために、テキスト埋め込みの役割を保ちながら、"Joint-text"パラダイムも導入する。
論文 参考訳(メタデータ) (2025-03-27T08:07:45Z) - Instance-Level Moving Object Segmentation from a Single Image with Events [84.12761042512452]
移動対象セグメンテーションは、複数の移動対象を含む動的なシーンを理解する上で重要な役割を果たす。
従来の手法では、物体の画素変位がカメラの動きや物体の動きによって引き起こされるかどうかを区別することが困難であった。
近年の進歩は、従来の画像の不適切な動作モデリング機能に対抗するために、新しいイベントカメラの動作感度を利用する。
補完的なテクスチャとモーションキューを統合した,最初のインスタンスレベルの移動オブジェクトセグメンテーションフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-18T15:56:46Z) - Shuffled Autoregression For Motion Interpolation [53.61556200049156]
この作業は、モーションタスクのためのディープラーニングソリューションを提供することを目的としている。
本稿では,自己回帰を任意の(シャッフルされた)順序で生成するために拡張する,emphShuffled AutoRegressionと呼ばれる新しいフレームワークを提案する。
また,3つのステージを終端から終端の時空間運動変換器に組み込んだ依存グラフの構築手法を提案する。
論文 参考訳(メタデータ) (2023-06-10T07:14:59Z) - PoseVocab: Learning Joint-structured Pose Embeddings for Human Avatar
Modeling [30.93155530590843]
提案するPoseVocabは,高忠実度人間の細部をエンコードできる新しいポーズ符号化手法である。
キャラクターのマルチビューRGBビデオが与えられた後、PoseVocabはトレーニングポーズに基づいてキーポーズと潜在埋め込みを構築する。
実験により,本手法は他の最先端のベースラインよりも優れていることが示された。
論文 参考訳(メタデータ) (2023-04-25T17:25:36Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z) - Hierarchical Neural Implicit Pose Network for Animation and Motion
Retargeting [66.69067601079706]
HIPNetは、複数のポーズで訓練された暗黙のポーズネットワークである。
階層的な骨格に基づく表現を用いて、正準非正則空間上の符号付き距離関数を学習する。
種々の単目的および多目的のベンチマークで最先端の結果を得る。
論文 参考訳(メタデータ) (2021-12-02T03:25:46Z) - A Hierarchy-Aware Pose Representation for Deep Character Animation [2.47343886645587]
深層キャラクタアニメーションに適した動きモデリングのための頑健なポーズ表現を提案する。
我々の表現は、回転方向と位置方向を同時にエンコードする、よく定義された演算を持つ数学的抽象化である二重四元数に基づいている。
我々の表現は共通の動きを克服し、他の一般的な表現と比較してその性能を評価する。
論文 参考訳(メタデータ) (2021-11-27T14:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。