論文の概要: EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation
- arxiv url: http://arxiv.org/abs/2507.03905v1
- Date: Sat, 05 Jul 2025 05:36:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.931597
- Title: EchoMimicV3: 1.3B Parameters are All You Need for Unified Multi-Modal and Multi-Task Human Animation
- Title(参考訳): EchoMimicV3: 1.3Bパラメータは、統一されたマルチモーダル・マルチタスクヒューマンアニメーションに必要なすべて
- Authors: Rang Meng, Yan Wang, Weipeng Wu, Ruobing Zheng, Yuming Li, Chenguang Ma,
- Abstract要約: 本研究では,多種多様な生成タスクを空間的時間的局所的再構成として扱う,人間アニメーションのための新しい統合マルチタスクパラダイムを提案する。
マルチモーダル分離型クロスアテンションモジュールを導入し,マルチモーダルを分割・分散的に融合する。
本稿では,新しいSFT+Reward交互学習パラダイムを提案する。これは1.3Bパラメータを持つ最小限のモデルで,10倍のパラメータを持つモデルに匹敵する生成品質を実現する。
- 参考スコア(独自算出の注目度): 8.214084596349744
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Human animation recently has advanced rapidly, achieving increasingly realistic and vivid results, especially with the integration of large-scale video generation models. However, the slow inference speed and high computational cost of these large models bring significant challenges for practical applications. Additionally, various tasks in human animation, such as lip-syncing, audio-driven full-body animation, and video generation from start and end frames, often require different specialized models. The introduction of large video models has not alleviated this dilemma. This raises an important question: Can we make human animation Faster, Higher in quality, Stronger in generalization, and make various tasks Together in one model? To address this, we dive into video generation models and discover that the devil lies in the details: Inspired by MAE, we propose a novel unified Multi-Task paradigm for human animation, treating diverse generation tasks as spatial-temporal local reconstructions, requiring modifications only on the input side; Given the interplay and division among multi-modal conditions including text, image, and audio, we introduce a multi-modal decoupled cross-attention module to fuse multi-modals in a divide-and-conquer manner; We propose a new SFT+Reward alternating training paradigm, enabling the minimal model with 1.3B parameters to achieve generation quality comparable to models with 10 times the parameters count. Through these innovations, our work paves the way for efficient, high-quality, and versatile digital human generation, addressing both performance and practicality challenges in the field. Extensive experiments demonstrate that EchoMimicV3 outperforms existing models in both facial and semi-body video generation, providing precise text-based control for creating videos in a wide range of scenarios.
- Abstract(参考訳): 近年、人間のアニメーションは急速に進歩し、特に大規模ビデオ生成モデルの統合により、現実的で鮮明な結果が得られるようになった。
しかし、これらの大規模モデルの遅い推論速度と高い計算コストは、実用的な応用に重大な課題をもたらす。
加えて、リップシンク、オーディオ駆動フルボディアニメーション、スタートフレームとエンドフレームからのビデオ生成など、人間のアニメーションにおける様々なタスクは、しばしば異なる特別なモデルを必要とする。
大きなビデオモデルの導入は、このジレンマを緩和していない。
人間のアニメーションをより速く、品質を高く、一般化をより強力にし、1つのモデルで様々なタスクを一緒にできるだろうか?
MAEに触発されて、我々は、人間のアニメーションのための新しい統合されたマルチタスクパラダイムを提案し、多様な生成タスクを空間的局所的再構成として扱い、入力側でのみ変更を必要とすること、テキスト、画像、音声を含むマルチモーダル条件間の相互作用と分割を考慮し、マルチモーダルを分割・コンカレントで融合するためのマルチモーダルデカップリング・クロスアテンション・モジュールを導入すること、新しいSFT+リワード・トレーニングパラダイムを提案する。
これらのイノベーションを通じて、我々の研究は、この分野におけるパフォーマンスと実践性の両方の問題に対処し、効率的で高品質で多目的なデジタルヒューマンジェネレーションの道を開いた。
大規模な実験では、EchoMimicV3は顔と半体の両方のビデオ生成において既存のモデルよりも優れており、幅広いシナリオでビデオを作成するための正確なテキストベースの制御を提供する。
関連論文リスト
- Multi-identity Human Image Animation with Structural Video Diffusion [64.20452431561436]
本稿では,リアルなマルチヒューマンビデオを生成するための新しいフレームワークであるStructure Video Diffusionを提案する。
当社のアプローチでは、個人間で一貫した外観を維持するために、アイデンティティ固有の埋め込みを導入している。
さまざまなマルチヒューマンとオブジェクトのインタラクションシナリオを特徴とする25Kの新しいビデオで、既存のヒューマンビデオデータセットを拡張します。
論文 参考訳(メタデータ) (2025-04-05T10:03:49Z) - DiTCtrl: Exploring Attention Control in Multi-Modal Diffusion Transformer for Tuning-Free Multi-Prompt Longer Video Generation [54.30327187663316]
DiTCtrlは、MM-DiTアーキテクチャの下で初めてトレーニング不要なマルチプロンプトビデオ生成手法である。
MM-DiTの注意機構を解析し、3次元のフルアテンションがUNetのような拡散モデルにおけるクロス/セルフアテンションブロックと同様の振る舞いを示す。
我々の注意深い設計に基づいて、DiTCtrlによって生成されたビデオは、複数のシーケンシャルプロンプトが与えられた滑らかな遷移と一貫した物体の動きを達成する。
論文 参考訳(メタデータ) (2024-12-24T18:51:19Z) - Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs [67.59291068131438]
Motion-Agentは、一般的な人間の動きの生成、編集、理解のために設計された会話フレームワークである。
Motion-Agentはオープンソースの事前学習言語モデルを使用して、モーションとテキストのギャップを埋める生成エージェントであるMotionLLMを開発した。
論文 参考訳(メタデータ) (2024-05-27T09:57:51Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Large Motion Model for Unified Multi-Modal Motion Generation [50.56268006354396]
Large Motion Model (LMM) は、動き中心のマルチモーダルフレームワークであり、メインストリームのモーション生成タスクをジェネラリストモデルに統合する。
LMMは3つの原則的な側面からこれらの課題に取り組む。
論文 参考訳(メタデータ) (2024-04-01T17:55:11Z) - VLOGGER: Multimodal Diffusion for Embodied Avatar Synthesis [40.869862603815875]
VLOGGER (VLOGGER) は、単一の入力画像から音声駆動のヒューマンビデオを生成する方法である。
空間的および時間的制御の両面からテキスト・ツー・イメージ・モデルを拡張する新しい拡散型アーキテクチャを用いている。
ビデオ編集やパーソナライズにおける応用例を示す。
論文 参考訳(メタデータ) (2024-03-13T17:59:02Z) - Unified-IO 2: Scaling Autoregressive Multimodal Models with Vision,
Language, Audio, and Action [46.76487873983082]
Unified-IO 2は、画像、テキスト、オーディオ、アクションの理解と生成が可能な最初の自己回帰型マルチモーダルモデルである。
我々は、多様な情報源から、大規模なマルチモーダル事前学習コーパスをスクラッチからトレーニングする。
単一の統一モデルにより、Unified-IO 2はGRITベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-28T17:57:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。