論文の概要: AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation
- arxiv url: http://arxiv.org/abs/2603.15415v1
- Date: Mon, 16 Mar 2026 15:25:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.538983
- Title: AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation
- Title(参考訳): AnyCrowd: Arbitrary Multi-Character Animationのためのインスタンス分離ID-Poseバインディング
- Authors: Zhenyu Xie, Ji Xia, Michael Kampffmeyer, Panwen Hu, Zehua Ma, Yujian Zheng, Jing Wang, Zheng Chong, Xujie Zhang, Xianhang Cheng, Xiaodan Liang, Hao Li,
- Abstract要約: 我々は,任意の文字にスケール可能なトランスフォーマーベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、さらに、(i)インスタンス認識フォアグラウンドアテンション、(ii)背景中心の相互作用、(iii)世界背景調整に自己注意を分解することで、運転ポーズにアイデンティティを結合するトリステージデカップリングアテンション(TSDA)を提案する。
- 参考スコア(独自算出の注目度): 55.94507360511886
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Controllable character animation has advanced rapidly in recent years, yet multi-character animation remains underexplored. As the number of characters grows, multi-character reference encoding becomes more susceptible to latent identity entanglement, resulting in identity bleeding and reduced controllability. Moreover, learning precise and spatio-temporally consistent correspondences between reference identities and driving pose sequences becomes increasingly challenging, often leading to identity-pose mis-binding and inconsistency in generated videos. To address these challenges, we propose AnyCrowd, a Diffusion Transformer (DiT)-based video generation framework capable of scaling to an arbitrary number of characters. Specifically, we first introduce an Instance-Isolated Latent Representation (IILR), which encodes character instances independently prior to DiT processing to prevent latent identity entanglement. Building on this disentangled representation, we further propose Tri-Stage Decoupled Attention (TSDA) to bind identities to driving poses by decomposing self-attention into: (i) instance-aware foreground attention, (ii) background-centric interaction, and (iii) global foreground-background coordination. Furthermore, to mitigate token ambiguity in overlapping regions, an Adaptive Gated Fusion (AGF) module is integrated within TSDA to predict identity-aware weights, effectively fusing competing token groups into identity-consistent representations...
- Abstract(参考訳): 近年,制御可能なキャラクターアニメーションが急速に進歩しているが,マルチキャラクタアニメーションはいまだに未検討である。
文字数が増加するにつれて、マルチ文字参照エンコーディングは潜伏したアイデンティティの絡み合いに対してより感受性が高くなり、同一性出血と制御性が低下する。
さらに、参照アイデンティティとドライビングポーズシーケンスの正確な時間的整合性を学習することがますます難しくなり、多くの場合、生成したビデオのアイデンティティー目的のミスバインディングと一貫性が低下する。
これらの課題に対処するために、任意の文字にスケール可能な拡散変換器(DiT)ベースのビデオ生成フレームワークであるAnyCrowdを提案する。
具体的には、まず、DiT処理に先立って文字インスタンスを独立してエンコードするIILR(Instance-Isolated Latent Representation)を導入し、遅延IDの絡み込みを防止する。
この不整合表現に基づいて、私たちはさらに、自己注意を分解して、運転ポーズにアイデンティティを結合する三段階疎結合注意(TSDA)を提案する。
(一)前景の注意を念頭に置くこと。
(二)背景中心の相互作用、及び
三 グローバル・フォアグラウンド・バック・コーディネート。
さらに、重複する領域におけるトークンのあいまいさを軽減するために、Adaptive Gated Fusion (AGF)モジュールがTSDAに統合され、ID対応の重みを予測する。
関連論文リスト
- AnyPhoto: Multi-Person Identity Preserving Image Generation with ID Adaptive Modulation on Location Canvas [4.078056648158513]
強いアイデンティティ/アイデンティティ条件は、しばしばコピーペーストショートカットを誘発し、プロンプト駆動制御性を弱める。
拡散変換器の微調整フレームワークであるAnyPhotoについて述べる。 (i) 位置キャンバスと位置整合トークンプルーニングによる空間的接地を行う。
MultiID-Benchでは、AnyPhotoはコピーペースト傾向を減らしながらアイデンティティの類似性を改善し、アイデンティティの数が増えるにつれて向上する。
論文 参考訳(メタデータ) (2026-03-16T03:08:38Z) - Optimizing ID Consistency in Multimodal Large Models: Facial Restoration via Alignment, Entanglement, and Disentanglement [54.199726425201895]
大規模モデルのマルチモーダル編集は、様々なタスクにまたがる強力な編集機能を示している。
現在の顔認証保存法は、顔認証と編集済み要素IPの整合性回復に苦慮している。
そこで我々は,頑健なアイデンティティ特異的顔復元のためのアライメント・ディスタングルメント・アンタングルメント・フレームワークであるEditedIDを提案する。
論文 参考訳(メタデータ) (2026-02-21T08:24:42Z) - ID-Composer: Multi-Subject Video Synthesis with Hierarchical Identity Preservation [48.59900036213667]
大規模なデータセットで事前訓練されたビデオ生成モデルは高品質なビデオを生成することができるが、テキストや単一の画像に条件付けされることも多い。
本稿では,テキストプロンプトと参照画像から多目的映像を生成する新しいフレームワークであるID-Composerを紹介する。
論文 参考訳(メタデータ) (2025-11-01T11:29:14Z) - Beyond Inference Intervention: Identity-Decoupled Diffusion for Face Anonymization [55.29071072675132]
顔の匿名化は、非同一性属性を保持しながら、識別情報を隠蔽することを目的としている。
トレーニング中心の匿名化フレームワークである textbfIDsuperscript2Face を提案する。
IDtextsuperscript2Faceは、視覚的品質、アイデンティティの抑制、ユーティリティ保存において、既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2025-10-28T09:28:12Z) - UMO: Scaling Multi-Identity Consistency for Image Customization via Matching Reward [15.094319754425468]
UMOは,高忠実度ID保存の維持と,拡張性によるアイデンティティの混乱の軽減を目的としたフレームワークである。
UMOはマルチ・ツー・マルチマッチング(multi-to-multi matching)パラダイムを用いて、グローバルな割り当て最適化問題としてマルチアイデンティティ生成を再構成する。
我々は,合成部品と実部品の両方からなるマルチ参照画像を用いたスケーラブルなカスタマイズデータセットを開発した。
論文 参考訳(メタデータ) (2025-09-08T15:54:55Z) - Personalized Face Super-Resolution with Identity Decoupling and Fitting [50.473357681579664]
極端な劣化シナリオでは、重要な属性とID情報が入力画像で著しく失われることが多い。
既存の方法では、そのような条件下で幻覚顔を生成する傾向があり、真のID制約を欠いた復元画像を生成する。
本稿ではIDデカップリング・フィッティング(IDFSR)を用いた新しいFSR手法を提案する。
論文 参考訳(メタデータ) (2025-08-13T02:33:11Z) - PartFormer: Awakening Latent Diverse Representation from Vision Transformer for Object Re-Identification [73.64560354556498]
Vision Transformer (ViT) は、ほとんどの異なる訓練データ領域に過度に適合する傾向にあり、その一般化性と全体的対象特徴への注意が制限される。
本稿では、オブジェクトRe-IDタスクの制限を克服するために設計された、ViTの革新的な適応であるPartFormerを紹介する。
我々のフレームワークは、最も困難なMSMT17データセットにおいて、最先端の2.4%のmAPスコアを著しく上回る。
論文 参考訳(メタデータ) (2024-08-29T16:31:05Z) - Infinite-ID: Identity-preserved Personalization via ID-semantics Decoupling Paradigm [31.06269858216316]
アイデンティティ保存型パーソナライゼーションのためのID-セマンティックデカップリングパラダイムであるInfinite-IDを提案する。
我々は、十分なID情報を取得するために、追加のイメージクロスアテンションモジュールを組み込んだアイデンティティ強化トレーニングを導入する。
また、2つのストリームをシームレスにマージするために、混合アテンションモジュールとAdaIN平均演算を組み合わせた機能相互作用機構を導入する。
論文 参考訳(メタデータ) (2024-03-18T13:39:53Z) - Semantic Consistency and Identity Mapping Multi-Component Generative
Adversarial Network for Person Re-Identification [39.605062525247135]
本稿では,1つのドメインから複数のドメインへのスタイル適応を提供する,意味一貫性とアイデンティティマッピングの多成分生成対向ネットワーク(SC-IMGAN)を提案する。
提案手法は,6つの挑戦的人物リidデータセットにおける最先端技術よりも優れている。
論文 参考訳(メタデータ) (2021-04-28T14:12:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。