論文の概要: InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
- arxiv url: http://arxiv.org/abs/2506.09984v1
- Date: Wed, 11 Jun 2025 17:57:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 06:35:03.186053
- Title: InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions
- Title(参考訳): InterActHuman:レイアウト付きオーディオ条件によるマルチコンセプトヒューマンアニメーション
- Authors: Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang, Chao Liang, Gaojie Lin, Zerong Zheng, Ceyuan Yang, Dahua Lin,
- Abstract要約: リッチなマルチモーダル条件を持つエンドツーエンドの人間アニメーションは,近年顕著な進歩を遂げている。
既存のほとんどの手法は、単一の主題をアニメーションし、グローバルな方法で条件を注入するしかなかった。
本稿では,各アイデンティティの時間的フットプリントに対する条件の強い領域特異的な結合を強制する,新しい枠組みを提案する。
- 参考スコア(独自算出の注目度): 70.63690961790573
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: End-to-end human animation with rich multi-modal conditions, e.g., text, image and audio has achieved remarkable advancements in recent years. However, most existing methods could only animate a single subject and inject conditions in a global manner, ignoring scenarios that multiple concepts could appears in the same video with rich human-human interactions and human-object interactions. Such global assumption prevents precise and per-identity control of multiple concepts including humans and objects, therefore hinders applications. In this work, we discard the single-entity assumption and introduce a novel framework that enforces strong, region-specific binding of conditions from modalities to each identity's spatiotemporal footprint. Given reference images of multiple concepts, our method could automatically infer layout information by leveraging a mask predictor to match appearance cues between the denoised video and each reference appearance. Furthermore, we inject local audio condition into its corresponding region to ensure layout-aligned modality matching in a iterative manner. This design enables the high-quality generation of controllable multi-concept human-centric videos. Empirical results and ablation studies validate the effectiveness of our explicit layout control for multi-modal conditions compared to implicit counterparts and other existing methods.
- Abstract(参考訳): 近年,テキスト,画像,オーディオなどのリッチなマルチモーダル条件によるエンド・ツー・エンドの人間アニメーションは,目覚ましい進歩を遂げている。
しかし、既存のほとんどの手法は、単一の主題をアニメーション化し、グローバルな方法で条件を注入することしかできず、人間と人間の相互作用と人間とオブジェクトの相互作用が豊富な同じビデオに複数の概念が現れるというシナリオを無視した。
このようなグローバルな仮定は、人間や物体を含む複数の概念の正確かつ個人単位の制御を妨げるため、応用を妨げる。
本研究では,一意性仮定を廃止し,各アイデンティティの時空間的フットプリントに対する条件の強い領域特異的な結合を強制する新しい枠組みを導入する。
提案手法は,複数の概念の参照画像から,マスク予測器を応用してレイアウト情報を自動的に推論し,映像の出現状況と参照出現状況とを一致させる。
さらに,局所的なオーディオ条件を対応する領域に注入し,レイアウト整合性マッチングを反復的に保証する。
この設計により、制御可能なマルチコンセプト人間中心ビデオの高品質な生成が可能になる。
実験結果とアブレーション研究により,暗黙的手法や既存手法と比較して,多モード条件に対する明示的レイアウト制御の有効性が検証された。
関連論文リスト
- HunyuanVideo-HOMA: Generic Human-Object Interaction in Multimodal Driven Human Animation [26.23483219159567]
HunyuanVideo-HOMAは、弱い条件付きマルチモーダル駆動のフレームワークである。
多モード拡散変圧器の二重入力空間に外観と運動信号を符号化する。
解剖学的に一貫した物理的に安定な相互作用を合成する。
論文 参考訳(メタデータ) (2025-06-10T13:45:00Z) - Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - Consistent Human Image and Video Generation with Spatially Conditioned Diffusion [82.4097906779699]
一貫性のある人中心画像とビデオ合成は、所定の参照画像との外観整合性を維持しつつ、新しいポーズを持つ画像を生成することを目的としている。
我々は,課題を空間条件付き塗装問題とみなし,対象画像をインペイントして参照との外観整合性を維持する。
このアプローチにより、参照機能により、統一された認知ネットワーク内でのポーズ準拠のターゲットの生成をガイドすることができる。
論文 参考訳(メタデータ) (2024-12-19T05:02:30Z) - Hallo: Hierarchical Audio-Driven Visual Synthesis for Portrait Image Animation [29.87407471246318]
この研究は、顔の動きを同期させ、視覚的に魅力的で時間的に一貫したアニメーションを作成する複雑さを掘り下げている。
我々の革新的なアプローチは、エンドツーエンドの拡散パラダイムを採用し、階層的な音声駆動視覚合成モジュールを導入しています。
提案した階層型音声駆動視覚合成は、表現の適応的な制御と多様性のポーズを提供し、異なるアイデンティティに合わせてより効果的なパーソナライゼーションを可能にする。
論文 参考訳(メタデータ) (2024-06-13T04:33:20Z) - From Parts to Whole: A Unified Reference Framework for Controllable Human Image Generation [19.096741614175524]
Parts2Wholeは、複数の参照画像からカスタマイズされたポートレートを生成するために設計された新しいフレームワークである。
そこで我々はまず,人間の各部分の詳細を保持する意味認識型外見エンコーダを開発した。
第2に,本フレームワークは共有自己認識機構によるマルチイメージコンディション生成をサポートする。
論文 参考訳(メタデータ) (2024-04-23T17:56:08Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Neural Rendering of Humans in Novel View and Pose from Monocular Video [68.37767099240236]
本稿では,新しい視点下で写真リアルな人間を生成し,モノクロ映像を入力として提示する新しい手法を提案する。
提案手法は,モノクラー映像を入力として,見知らぬポーズや新しい視点下での既存手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-04T03:09:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。