Fugu-MT 論文翻訳(概要): SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers

論文の概要: SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers

arxiv url: http://arxiv.org/abs/2502.10841v1
Date: Sat, 15 Feb 2025 16:08:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-18 20:34:44.703233
Title: SkyReels-A1: Expressive Portrait Animation in Video Diffusion Transformers
Title（参考訳）: SkyReels-A1:ビデオ拡散変換器における表現的ポートレートアニメーション
Authors: Di Qiu, Zhengcong Fei, Rui Wang, Jialin Bai, Changqian Yu, Mingyuan Fan, Guibin Chen, Xiang Wen,
Abstract要約: ポートレート画像アニメーションを容易にするために,ビデオ拡散トランスフォーマを基盤としたSkyReels-A1を提案する。 SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動き伝達精度、アイデンティティ保持、時間的コヒーレンスを向上させる。仮想アバター、リモート通信、デジタルメディア生成などの領域に適用可能である。
参考スコア（独自算出の注目度）: 30.06494915665044
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present SkyReels-A1, a simple yet effective framework built upon video diffusion Transformer to facilitate portrait image animation. Existing methodologies still encounter issues, including identity distortion, background instability, and unrealistic facial dynamics, particularly in head-only animation scenarios. Besides, extending to accommodate diverse body proportions usually leads to visual inconsistencies or unnatural articulations. To address these challenges, SkyReels-A1 capitalizes on the strong generative capabilities of video DiT, enhancing facial motion transfer precision, identity retention, and temporal coherence. The system incorporates an expression-aware conditioning module that enables seamless video synthesis driven by expression-guided landmark inputs. Integrating the facial image-text alignment module strengthens the fusion of facial attributes with motion trajectories, reinforcing identity preservation. Additionally, SkyReels-A1 incorporates a multi-stage training paradigm to incrementally refine the correlation between expressions and motion while ensuring stable identity reproduction. Extensive empirical evaluations highlight the model's ability to produce visually coherent and compositionally diverse results, making it highly applicable to domains such as virtual avatars, remote communication, and digital media generation.
Abstract（参考訳）: SkyReels-A1は,映像拡散トランスフォーマー上に構築され,肖像画アニメーションを容易にするための簡易かつ効果的なフレームワークである。既存の方法論は、特にヘッドオンリーのアニメーションシナリオにおいて、アイデンティティの歪み、背景不安定性、非現実的な顔力学などの問題に直面している。さらに、多様な身体比に対応するように拡張すると、通常、視覚的不整合や不自然な調音につながる。これらの課題に対処するため、SkyReels-A1は、ビデオDiTの強力な生成能力を活用し、顔の動きの転送精度、アイデンティティ保持、時間的コヒーレンスを向上させる。このシステムには、表現誘導型ランドマーク入力によって駆動されるシームレスなビデオ合成を可能にする、表現認識型コンディショニングモジュールが組み込まれている。顔画像テキストアライメントモジュールの統合により、顔属性と運動軌跡との融合が強化され、アイデンティティの保存が強化される。さらに、SkyReels-A1はマルチステージトレーニングパラダイムを導入し、安定したアイデンティティ再現を確保しつつ、表現と動きの相関性を漸進的に洗練する。広範にわたる経験的評価は、視覚的に一貫性があり、構成的に多様な結果を生み出すモデルの能力を強調しており、仮想アバター、リモート通信、デジタルメディア生成などの領域に高い適用性を持つ。

関連論文リスト

IM-Animation: An Implicit Motion Representation for Identity-decoupled Character Animation [58.297199313494]
インプシット法は、動画から直接動作の意味をキャプチャするが、動作と外観の絡み合いやアイデンティティの漏洩に悩まされる。本稿では,フレームごとの動作をコンパクトな1次元モーショントークンに圧縮する新しい暗黙の動作表現を提案する。本手法では,3段階のトレーニング戦略を用いて,トレーニング効率を高め,高い忠実性を確保する。
論文参考訳（メタデータ） (2026-02-07T11:17:20Z)
Audio-Driven Universal Gaussian Head Avatars [66.56656075831954]
本稿では,音声駆動型ユニバーサルフォトリアリスティックアバター合成法について紹介する。個人に依存しない音声モデルと私たちの小説Universal Head Avatar Priorを組み合わせたものです。我々の手法は、外観の詳細なモデリングとレンダリングを考慮に入れた最初の一般的なオーディオ駆動アバターモデルである。
論文参考訳（メタデータ） (2025-09-23T12:46:43Z)
FantasyTalking: Realistic Talking Portrait Generation via Coherent Motion Synthesis [12.987186425491242]
本研究では,高忠実でコヒーレントな音声画像と制御可能なモーションダイナミックスを生成するための新しい枠組みを提案する。最初の段階では、コヒーレントなグローバルな動きを確立するためにクリップレベルのトレーニングスキームを採用している。第2段階では、リップトレーシングマスクを用いて、フレームレベルでの唇の動きを洗練し、音声信号との正確な同期を確保する。
論文参考訳（メタデータ） (2025-04-07T08:56:01Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。 VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文参考訳（メタデータ） (2025-03-19T11:59:14Z)
X-Dyna: Expressive Dynamic Human Image Animation [49.896933584815926]
X-Dynaは、単一の人間のイメージをアニメーションするための、ゼロショットで拡散ベースのパイプラインである。対象と周辺環境の両方に対して現実的でコンテキスト対応のダイナミクスを生成する。
論文参考訳（メタデータ） (2025-01-17T08:10:53Z)
GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。 2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文参考訳（メタデータ） (2024-12-12T14:12:07Z)
VideoGen-of-Thought: Step-by-step generating multi-shot video with minimal manual intervention [70.61101071902596]
現在のビデオ生成モデルは短いクリップで優れているが、解離した視覚力学と破折したストーリーラインのため、凝集性のある複数ショットの物語を生成できない。一つの文から複数ショットのビデオ合成を自動化する,ステップバイステップのフレームワークであるVideoGen-of-Thought (VGoT)を紹介した。 VGoTは、ショット内の顔の一貫性が20.4%、スタイルの一貫性が17.4%向上するマルチショットビデオを生成する。
論文参考訳（メタデータ） (2024-12-03T08:33:50Z)
AniTalker: Animate Vivid and Diverse Talking Faces through Identity-Decoupled Facial Motion Encoding [24.486705010561067]
AniTalkerは、1つのポートレートから、生き生きとした話し顔を生成するために設計されたフレームワークである。 AniTalkerは、微妙な表情や頭の動きを含む、幅広い顔のダイナミクスを効果的にキャプチャする。
論文参考訳（メタデータ） (2024-05-06T02:32:41Z)
Zero-shot High-fidelity and Pose-controllable Character Animation [89.74818983864832]
イメージ・ツー・ビデオ(I2V)生成は、単一の画像からビデオシーケンスを作成することを目的としている。既存のアプローチは、キャラクターの外観の不整合と細部保存の貧弱さに悩まされている。文字アニメーションのための新しいゼロショットI2VフレームワークPoseAnimateを提案する。
論文参考訳（メタデータ） (2024-04-21T14:43:31Z)
FaceChain-ImagineID: Freely Crafting High-Fidelity Diverse Talking Faces from Disentangled Audio [45.71036380866305]
我々は、音声を聴く人々の過程を抽象化し、意味のある手がかりを抽出し、単一の音声から動的に音声に一貫性のある発話顔を生成する。ひとつはアイデンティティ、コンテンツ、感情をエンタングルドオーディオから効果的に切り離すことであり、もう一つは動画内多様性とビデオ間の一貫性を維持することである。本稿では,3つのトレーニング可能なアダプタと凍結遅延拡散モデルとのフレキシブルな統合を含む,制御可能なコヒーレントフレーム生成を提案する。
論文参考訳（メタデータ） (2024-03-04T09:59:48Z)
From Static to Dynamic: Adapting Landmark-Aware Image Models for Facial Expression Recognition in Videos [88.08209394979178]
野生における動的表情認識(DFER)は、データ制限によって依然として妨げられている。抽出された顔のランドマーク認識機能に暗黙的に符号化された既存のSFER知識と動的情報を活用する新しい静的・動的モデル(S2D)を提案する。
論文参考訳（メタデータ） (2023-12-09T03:16:09Z)
FAAC: Facial Animation Generation with Anchor Frame and Conditional Control for Superior Fidelity and Editability [14.896554342627551]
顔のアイデンティティと編集能力を両立させる顔アニメーション生成手法を提案する。このアプローチは、オリジナルのテキスト・ツー・イメージモデルにおける生成能力の劣化に対処するためのアンカーフレームの概念を取り入れている。提案手法の有効性をDreamBoothモデルとLoRAモデルで検証した。
論文参考訳（メタデータ） (2023-12-06T02:55:35Z)
DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文参考訳（メタデータ） (2023-10-18T14:42:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。