論文の概要: EverybodyDance: Bipartite Graph-Based Identity Correspondence for Multi-Character Animation
- arxiv url: http://arxiv.org/abs/2512.16360v1
- Date: Thu, 18 Dec 2025 09:55:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.003861
- Title: EverybodyDance: Bipartite Graph-Based Identity Correspondence for Multi-Character Animation
- Title(参考訳): EverybodyDance: マルチキャラクタアニメーションのための二部グラフベースのアイデンティティ対応
- Authors: Haotian Ling, Zequn Chen, Qiuying Chen, Donglin Di, Yongjia Ma, Hao Li, Chen Wei, Zhulin Tao, Xun Yang,
- Abstract要約: マルチキャラクタアニメーションにおけるICの正しさを目標とした体系的ソリューションである EverybodyDance を紹介する。
EverybodyDanceはIdentity Matching Graph(IMG)を中心に構築されており、生成されたフレームと参照フレームの文字を2つのノードセットとしてモデル化する。
また,マルチキャラクタアニメーションに適したターゲット戦略として,アイデンティティ組み込みガイダンス,マルチスケールマッチング戦略,事前分類サンプリングなどを提案する。
- 参考スコア(独自算出の注目度): 21.656024015861618
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Consistent pose-driven character animation has achieved remarkable progress in single-character scenarios. However, extending these advances to multi-character settings is non-trivial, especially when position swap is involved. Beyond mere scaling, the core challenge lies in enforcing correct Identity Correspondence (IC) between characters in reference and generated frames. To address this, we introduce EverybodyDance, a systematic solution targeting IC correctness in multi-character animation. EverybodyDance is built around the Identity Matching Graph (IMG), which models characters in the generated and reference frames as two node sets in a weighted complete bipartite graph. Edge weights, computed via our proposed Mask-Query Attention (MQA), quantify the affinity between each pair of characters. Our key insight is to formalize IC correctness as a graph structural metric and to optimize it during training. We also propose a series of targeted strategies tailored for multi-character animation, including identity-embedded guidance, a multi-scale matching strategy, and pre-classified sampling, which work synergistically. Finally, to evaluate IC performance, we curate the Identity Correspondence Evaluation benchmark, dedicated to multi-character IC correctness. Extensive experiments demonstrate that EverybodyDance substantially outperforms state-of-the-art baselines in both IC and visual fidelity.
- Abstract(参考訳): 一貫性のあるポーズ駆動キャラクタアニメーションは、シングルキャラクタのシナリオにおいて顕著な進歩を遂げた。
しかし、これらの進歩をマルチキャラクタ設定に拡張することは、特に位置スワップが関与する場合には、簡単ではない。
単なるスケーリング以外にも、中心となる課題は、参照中の文字と生成されたフレームの間に正しいアイデンティティ対応(IC)を強制することである。
そこで本研究では,マルチキャラクタアニメーションにおけるIC正当性を対象とする体系的ソリューションであるEverybodyDanceを紹介する。
EverybodyDanceはIdentity Matching Graph(IMG)を中心に構築されており、生成されたフレームと参照フレームの文字を重み付き完全二部グラフの2つのノードセットとしてモデル化する。
エッジウェイトは、提案したMask-Query Attention (MQA)を通して計算され、各文字間の親和性を定量化する。
我々の重要な洞察は、ICの正しさをグラフ構造計量として形式化し、トレーニング中にそれを最適化することである。
また,マルチキャラクタアニメーションに適したターゲット戦略として,アイデンティティ埋め込み型ガイダンス,マルチスケールマッチング戦略,構文的に機能する事前分類サンプリングなどを提案する。
最後に、IC性能を評価するために、マルチ文字ICの正当性に特化したアイデンティティ対応評価ベンチマークをキュレートする。
広範囲にわたる実験により、EverybodyDanceはICと視覚の両面において最先端のベースラインを大幅に上回っていることが示された。
関連論文リスト
- DisCo: Reinforcement with Diversity Constraints for Multi-Human Generation [60.741022906593685]
DisCoは、マルチヒューマン世代におけるアイデンティティの多様性を直接最適化する最初のRLベースのフレームワークである。
グループ相対ポリシー最適化によるDisCo微粒フローマッチングモデル。
DiverseHumans Testsetでは、DisCoは98.6のユニークな顔の精度とほぼ完璧なグローバルアイデンティティスプレッドを実現している。
論文 参考訳(メタデータ) (2025-10-01T19:28:51Z) - HERO: Rethinking Visual Token Early Dropping in High-Resolution Large Vision-Language Models [60.028070589466445]
本稿では,コンテンツ適応型トークン予算配分と関数対応トークン選択を統合したフレームワークHEROを提案する。
本研究は、HR-LVLMにおける効率的な推論に対する経験的洞察と実践的解決策の両方を提供する。
論文 参考訳(メタデータ) (2025-09-16T13:22:08Z) - GAME: Learning Multimodal Interactions via Graph Structures for Personality Trait Estimation [13.071227081328288]
ショートビデオからの明瞭なパーソナリティ分析は、視覚的、聴覚的、およびテキスト的手がかりの複雑な相互作用のため、重要なチャルレンジを呈する。
本稿では,グラフ拡張型マルチモーダル進化法であるGAMEを提案する。
ビジュアルストリームのために、顔グラフを構築し、グラフ畳み込みネットワーク(GCN)と畳み込みニューラルネットワーク(CNN)を組み合わせたデュアルブランチGeo Two-Stream Networkを導入する。
時間的ダイナミクスを捉えるために、フレームレベルの特徴はBiGによって処理される
論文 参考訳(メタデータ) (2025-05-05T13:48:09Z) - IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - FineCLIPER: Multi-modal Fine-grained CLIP for Dynamic Facial Expression Recognition with AdaptERs [5.35588281968644]
適応器を用いた動的顔表情認識のためのマルチモーダルきめ細粒度CLIP(Fine CLIPER)を提案する。
我々のFine CLIPERは、パラメータが少ないDFEW、FERV39k、MAFWデータセットで調整可能なSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-07-02T10:55:43Z) - Towards Multiple Character Image Animation Through Enhancing Implicit Decoupling [77.08568533331206]
文字画像アニメーションのための新しい多条件ガイドフレームワークを提案する。
我々は、モデルが暗黙的に疎結合する能力を高めるために、よく設計された入力モジュールをいくつか採用する。
本手法は,特に複雑な背景と複数の文字のシナリオにおいて,高品質なキャラクタアニメーションの生成に優れる。
論文 参考訳(メタデータ) (2024-06-05T08:03:18Z) - Representing Videos as Discriminative Sub-graphs for Action Recognition [165.54738402505194]
ビデオ中の各アクションの識別パターンを表現およびエンコードするためのサブグラフの新たな設計を提案する。
時空グラフとクラスタを各スケールでコンパクトなサブグラフに新たに構築するMUlti-scale Sub-Earn Ling (MUSLE) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-01-11T16:15:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。