論文の概要: SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers
- arxiv url: http://arxiv.org/abs/2502.10841v1
- Date: Sat, 15 Feb 2025 16:08:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:30.129186
- Title: SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers
- Title(参考訳): SkyReels-A1:ビデオ拡散変換器における表現的ポートレートアニメーション
- Authors: Di Qiu, Zhengcong Fei, Rui Wang, Jialin Bai, Changqian Yu, Mingyuan Fan, Guibin Chen, Xiang Wen,
- Abstract要約: ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。
SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
- 参考スコア(独自算出の注目度): 30.06494915665044
- License:
- Abstract: We present SkyReels-A1, a simple yet effective framework built upon video diffusion Transformer to facilitate portrait image animation. Existing methodologies still encounter issues, including identity distortion, background instability, and unrealistic facial dynamics, particularly in head-only animation scenarios. Besides, extending to accommodate diverse body proportions usually leads to visual inconsistencies or unnatural articulations. To address these challenges, SkyReels-A1 capitalizes on the strong generative capabilities of video DiT, enhancing facial motion transfer precision, identity retention, and temporal coherence. The system incorporates an expression-aware conditioning module that enables seamless video synthesis driven by expression-guided landmark inputs. Integrating the facial image-text alignment module strengthens the fusion of facial attributes with motion trajectories, reinforcing identity preservation. Additionally, SkyReels-A1 incorporates a multi-stage training paradigm to incrementally refine the correlation between expressions and motion while ensuring stable identity reproduction. Extensive empirical evaluations highlight the model's ability to produce visually coherent and compositionally diverse results, making it highly applicable to domains such as virtual avatars, remote communication, and digital media generation.
- Abstract(参考訳): SkyReels-A1は,映像拡散トランスフォーマー上に構築され,肖像画アニメーションを容易にするための簡易かつ効果的なフレームワークである。
既存の方法論は、特にヘッドオンリーのアニメーションシナリオにおいて、アイデンティティの歪み、背景不安定性、非現実的な顔力学などの問題に直面している。
さらに、多様な身体比に対応するように拡張すると、通常、視覚的不整合や不自然な調音につながる。
これらの課題に対処するため、SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動きの転送精度、アイデンティティ保持、時間的コヒーレンスを向上させる。
このシステムには、表現誘導型ランドマーク入力によって駆動されるシームレスなビデオ合成を可能にする、表現認識型コンディショニングモジュールが組み込まれている。
顔画像テキストアライメントモジュールの統合により、顔属性と運動軌跡との融合が強化され、アイデンティティの保存が強化される。
さらに、SkyReels-A1はマルチステージトレーニングパラダイムを導入し、安定したアイデンティティ再現を確保しつつ、表現と動きの相関性を漸進的に洗練する。
広範にわたる経験的評価は、視覚的に一貫性があり、構成的に多様な結果を生み出すモデルの能力を強調しており、仮想アバター、リモート通信、デジタルメディア生成などの領域に高い適用性を持つ。
関連論文リスト
- VividPose: Advancing Stable Video Diffusion for Realistic Human Image Animation [79.99551055245071]
時間的安定性を向上するエンドツーエンドパイプラインであるVividPoseを提案する。
識別対応外見制御器は、他の外見の詳細を損なうことなく、追加の顔情報を統合する。
SMPL-Xからの高密度レンダリングマップとスパーススケルトンマップの両方を利用する幾何対応のポーズコントローラ。
VividPoseは、提案したWildデータセットに優れた一般化能力を示す。
論文 参考訳(メタデータ) (2024-05-28T13:18:32Z) - AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。
AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文 参考訳(メタデータ) (2024-05-06T02:32:41Z) - Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。
既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。
文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文 参考訳(メタデータ) (2024-04-21T14:43:31Z) - FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。
ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。
本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文 参考訳(メタデータ) (2024-03-04T09:59:48Z) - From Audio to Photoreal Embodiment: Synthesizing Humans in Conversations [107.88375243135579]
音声を聴くと、顔、体、手を含む個人に対して、ジェスチャー動作の可能性を複数出力する。
ジェスチャーにおいて重要なニュアンスを表現できる高光写実性アバターを用いて生成した動きを可視化する。
実験により,本モデルが適切な多様なジェスチャーを生成することを示し,拡散法とVQ法の両方に優れることがわかった。
論文 参考訳(メタデータ) (2024-01-03T18:55:16Z) - From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。
抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文 参考訳(メタデータ) (2023-12-09T03:16:09Z) - FAAC: Facial Animation Generation with Anchor Frame and Conditional
Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。
このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。
提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文 参考訳(メタデータ) (2023-12-06T02:55:35Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Intriguing Properties of Vision Transformers [114.28522466830374]
視覚変換器(ViT)は、様々なマシンビジョン問題にまたがって印象的な性能を誇示している。
我々は、この問題を広範囲の実験を通して体系的に研究し、高性能畳み込みニューラルネットワーク(CNN)との比較を行った。
ViTsの効果的な特徴は、自己認識機構によって可能なフレキシブルな受容と動的場によるものであることを示す。
論文 参考訳(メタデータ) (2021-05-21T17:59:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。