論文の概要: ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
- arxiv url: http://arxiv.org/abs/2503.21144v1
- Date: Thu, 27 Mar 2025 04:18:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:45.838590
- Title: ChatAnyone: Stylized Real-time Portrait Video Generation with Hierarchical Motion Diffusion Model
- Title(参考訳): ChatAnyone:階層型運動拡散モデルによるリアルタイム画像生成
- Authors: Jinwei Qi, Chaonan Ji, Sheng Xu, Peng Zhang, Bang Zhang, Liefeng Bo,
- Abstract要約: 我々は,表現力とフレキシブルなビデオチャットが可能な,リアルタイムのポートレートビデオ生成のための新しいフレームワークを提案する。
第1段階は効率的な階層的な動き拡散モデルであり、明示的および暗黙的な動きの表現を考慮に入れている。
第2ステージは、手の動きを含む上半身の動きを特徴とするポートレートビデオを作成することを目的としている。
- 参考スコア(独自算出の注目度): 23.554216965562986
- License:
- Abstract: Real-time interactive video-chat portraits have been increasingly recognized as the future trend, particularly due to the remarkable progress made in text and voice chat technologies. However, existing methods primarily focus on real-time generation of head movements, but struggle to produce synchronized body motions that match these head actions. Additionally, achieving fine-grained control over the speaking style and nuances of facial expressions remains a challenge. To address these limitations, we introduce a novel framework for stylized real-time portrait video generation, enabling expressive and flexible video chat that extends from talking head to upper-body interaction. Our approach consists of the following two stages. The first stage involves efficient hierarchical motion diffusion models, that take both explicit and implicit motion representations into account based on audio inputs, which can generate a diverse range of facial expressions with stylistic control and synchronization between head and body movements. The second stage aims to generate portrait video featuring upper-body movements, including hand gestures. We inject explicit hand control signals into the generator to produce more detailed hand movements, and further perform face refinement to enhance the overall realism and expressiveness of the portrait video. Additionally, our approach supports efficient and continuous generation of upper-body portrait video in maximum 512 * 768 resolution at up to 30fps on 4090 GPU, supporting interactive video-chat in real-time. Experimental results demonstrate the capability of our approach to produce portrait videos with rich expressiveness and natural upper-body movements.
- Abstract(参考訳): リアルタイムのインタラクティブなビデオチャットの肖像画は、特にテキストや音声チャット技術における顕著な進歩により、未来のトレンドとしてますます認識されている。
しかし、既存の手法は主に頭部の動きをリアルタイムに生成することに焦点を当てているが、これらの頭部の動きに一致する体の動きを同期させることに苦慮している。
さらに、話し方や表情のニュアンスに対するきめ細かい制御を実現することは、依然として課題である。
これらの制約に対処するため,我々は,音声対話から上半身対話まで,表現力とフレキシブルなビデオチャットを可能にする,リアルタイム・ポートレート・ビデオ生成のための新しいフレームワークを導入した。
我々のアプローチは以下の2つの段階から成り立っている。
第1段階は効率的な階層的な動き拡散モデルであり、音声入力に基づいて暗黙の動作表現の両方を考慮に入れ、スタイリスティックな制御と頭部と身体の動きの同期を伴う多様な表情を生成する。
第2ステージは、手の動きを含む上半身の動きを特徴とするポートレートビデオを作成することを目的としている。
我々は、より詳細な手の動きを生成するために、手の動きの明示的な制御信号をジェネレータに注入し、さらに顔の精細化を行い、ポートレートビデオの全体的なリアリズムと表現性を高める。
さらに,4090 GPU上で最大30fpsで最大512 * 768解像度で上半身像映像を効率よく連続的に生成し,リアルタイムにインタラクティブなビデオチャットをサポートする。
実験により, 豊かな表現力と自然な上半身の動きを持つポートレートビデオの製作が可能となった。
関連論文リスト
- EMO2: End-Effector Guided Audio-Driven Avatar Video Generation [17.816939983301474]
本稿では,表現力の高い表情と手の動きを同時に生成できる新しい音声駆動音声ヘッド手法を提案する。
第1段階では、音声信号と手の動きの強い相関を利用して、音声入力から直接手振りを生成する。
第2段階では、拡散モデルを用いてビデオフレームを合成し、第1段階で生成されたポーズを取り入れ、現実的な表情と身体の動きを生成する。
論文 参考訳(メタデータ) (2025-01-18T07:51:29Z) - GoHD: Gaze-oriented and Highly Disentangled Portrait Animation with Rhythmic Poses and Realistic Expression [33.886734972316326]
GoHDは、非常にリアルで表現力があり、コントロール可能なポートレートビデオを作成するために設計されたフレームワークである。
潜時ナビゲーションを利用したアニメーションモジュールを導入し、目に見えない入力スタイルの一般化能力を向上させる。
コンホメータ構造付き条件拡散モデルは、韻律を意識した頭部ポーズを保証するように設計されている。
2段階のトレーニング戦略は、より時間依存的ではあるが、音声関連の少ない動きの発生から、頻繁でフレームワイドな唇運動蒸留を分離するために考案された。
論文 参考訳(メタデータ) (2024-12-12T14:12:07Z) - DAWN: Dynamic Frame Avatar with Non-autoregressive Diffusion Framework for Talking Head Video Generation [50.66658181705527]
本稿では,動的長大映像のオール・アット・オンス生成を可能にするフレームワークであるDAWNを提案する。
DAWNは,(1)潜在動作空間における音声駆動型顔力学生成,(2)音声駆動型頭部ポーズと点滅生成の2つの主要成分から構成される。
本手法は, 唇の動きを正確に表現し, 自然なポーズ・瞬き動作を特徴とする実写映像と鮮明な映像を生成する。
論文 参考訳(メタデータ) (2024-10-17T16:32:36Z) - One-Shot Pose-Driving Face Animation Platform [7.422568903818486]
我々は、Face LocatorとMotion Frame機構を統合することで、既存のImage2Videoモデルを洗練する。
我々は、人間の顔ビデオデータセットを用いてモデルを最適化し、高品質な音声ヘッドビデオを作成する能力を大幅に向上させる。
そこで我々は,Gradioフレームワークを用いたデモプラットフォームを開発し,プロセスの合理化を図り,ユーザがカスタマイズした音声ヘッドビデオを簡単に作成できるようにする。
論文 参考訳(メタデータ) (2024-07-12T03:09:07Z) - Diffused Heads: Diffusion Models Beat GANs on Talking-Face Generation [54.68893964373141]
顔の生成は、これまで、追加の参照ビデオからのガイダンスなしで、頭の動きや自然な表情を作り出すのに苦労してきた。
拡散に基づく生成モデルの最近の発展は、より現実的で安定したデータ合成を可能にする。
本稿では,現実的な人間の頭部の映像を生成するために,1つのアイデンティティ画像と音声シーケンスのみを必要とする自己回帰拡散モデルを提案する。
論文 参考訳(メタデータ) (2023-01-06T14:16:54Z) - Live Speech Portraits: Real-Time Photorealistic Talking-Head Animation [12.552355581481999]
まず,30fps以上の音声信号のみを駆動する,パーソナライズされた写真リアリスティックなトーキングヘッドアニメーションを生成するライブシステムを提案する。
第1段階はディープニューラルネットワークで、ターゲットの音声空間に特徴を投影する多様体投影と共に、ディープオーディオ特徴を抽出する。
第2段階では、投影された音声特徴から顔の動きと動きを学習する。
最終段階では、過去の予測から条件付き特徴写像を生成し、画像から画像への変換ネットワークに設定した候補画像で送信し、フォトリアリスティックレンダリングを合成する。
論文 参考訳(メタデータ) (2021-09-22T08:47:43Z) - Audio2Head: Audio-driven One-shot Talking-head Generation with Natural
Head Motion [34.406907667904996]
単一の参照画像から写真リアルなトーキングヘッド映像を生成するための音声駆動型トーキングヘッド手法を提案する。
動き認識型リカレントニューラルネットワーク(RNN)を用いた剛性6次元頭部運動のモデル化により,まず頭部ポーズ予測器を設計する。
そこで我々は,入力音声,頭部ポーズ,参照画像から高密度な運動場を生成する運動場生成装置を開発した。
論文 参考訳(メタデータ) (2021-07-20T07:22:42Z) - Egocentric Videoconferencing [86.88092499544706]
ビデオ会議は、価値ある非言語コミュニケーションと表情の手がかりを描写するが、通常は前面カメラを必要とする。
本稿では、スマートグラスに統合可能な低コストのウェアラブルエゴセントリックカメラセットを提案する。
私たちのゴールは、古典的なビデオ通話を模倣することであり、それゆえ、私たちはこのカメラの自我中心の視点を前向きのビデオに変えます。
論文 参考訳(メタデータ) (2021-07-07T09:49:39Z) - Audio-Driven Emotional Video Portraits [79.95687903497354]
Emotional Video Portraits(EVP)は、オーディオによって駆動される鮮やかな感情的なダイナミクスで高品質のビデオポートレートを合成するシステムです。
具体的には,音声を2つの分離空間に分解するクロスリコンストラクテッド感情不等角化手法を提案する。
ゆがんだ特徴によって、動的2D感情的な顔のランドマークは推定することができます。
次に,最終的な高品質映像画像を生成するために,ターゲット適応型顔合成手法を提案する。
論文 参考訳(メタデータ) (2021-04-15T13:37:13Z) - Audio- and Gaze-driven Facial Animation of Codec Avatars [149.0094713268313]
音声および/またはアイトラッキングを用いて,コーデックアバターをリアルタイムにアニメーション化するための最初のアプローチについて述べる。
私たちのゴールは、重要な社会的シグナルを示す個人間の表現力のある会話を表示することです。
論文 参考訳(メタデータ) (2020-08-11T22:28:48Z) - Audio-driven Talking Face Video Generation with Learning-based
Personalized Head Pose [67.31838207805573]
本稿では、音源者の音声信号Aと対象者の短いビデオVを入力とするディープニューラルネットワークモデルを提案する。
我々は、パーソナライズされた頭部ポーズで合成された高品質な会話顔映像を出力する。
提案手法は,最先端の手法よりも,頭部運動効果を識別し,高品質な会話顔ビデオを生成する。
論文 参考訳(メタデータ) (2020-02-24T10:02:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。