論文の概要: Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model
- arxiv url: http://arxiv.org/abs/2308.07749v1
- Date: Tue, 15 Aug 2023 13:00:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-16 12:49:51.086141
- Title: Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model
- Title(参考訳): ダンスアバター:画像拡散モデルを用いたポーズとテキスト誘導ヒトモーションビデオ合成
- Authors: Bosheng Qin, Wentao Ye, Qifan Yu, Siliang Tang, Yueting Zhuang
- Abstract要約: そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
- 参考スコア(独自算出の注目度): 57.855362366674264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rising demand for creating lifelike avatars in the digital realm has led
to an increased need for generating high-quality human videos guided by textual
descriptions and poses. We propose Dancing Avatar, designed to fabricate human
motion videos driven by poses and textual cues. Our approach employs a
pretrained T2I diffusion model to generate each video frame in an
autoregressive fashion. The crux of innovation lies in our adept utilization of
the T2I diffusion model for producing video frames successively while
preserving contextual relevance. We surmount the hurdles posed by maintaining
human character and clothing consistency across varying poses, along with
upholding the background's continuity amidst diverse human movements. To ensure
consistent human appearances across the entire video, we devise an intra-frame
alignment module. This module assimilates text-guided synthesized human
character knowledge into the pretrained T2I diffusion model, synergizing
insights from ChatGPT. For preserving background continuity, we put forth a
background alignment pipeline, amalgamating insights from segment anything and
image inpainting techniques. Furthermore, we propose an inter-frame alignment
module that draws inspiration from an auto-regressive pipeline to augment
temporal consistency between adjacent frames, where the preceding frame guides
the synthesis process of the current frame. Comparisons with state-of-the-art
methods demonstrate that Dancing Avatar exhibits the capacity to generate human
videos with markedly superior quality, both in terms of human and background
fidelity, as well as temporal coherence compared to existing state-of-the-art
approaches.
- Abstract(参考訳): デジタル空間における生活のようなアバターの需要が高まり、テキストによる記述やポーズによってガイドされた高品質な人間のビデオを作成する必要性が高まっている。
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
革新の欠如は、文脈的関連性を保ちながら、連続してビデオフレームを生成するためのT2I拡散モデルの利用に関係している。
我々は、さまざまなポーズで人間の性格と衣服の一貫性を維持することによるハードルを克服し、多様な人間の動きの中で背景の連続性を維持する。
ビデオ全体を通して一貫した人間の外観を確保するために、フレーム内アライメントモジュールを考案する。
このモジュールは、テキスト誘導合成された人格知識を事前訓練されたt2i拡散モデルに同化し、chatgptからの洞察を合成する。
背景の連続性を維持するため,背景のアライメントパイプラインを配置し,セグメントからの洞察と画像のインパインティング技術を組み合わせた。
さらに,先行するフレームが現在のフレームの合成過程をガイドする隣り合うフレーム間の時間的一貫性を高めるために,自己回帰パイプラインからインスピレーションを得たフレーム間アライメントモジュールを提案する。
最先端の手法と比較すると、Dancing Avatarは、人間と背景の忠実さと、既存の最先端のアプローチと比較して時間的コヒーレンスの両方において、明らかに優れた品質の人間のビデオを生成する能力を示している。
関連論文リスト
- Disentangling Foreground and Background Motion for Enhanced Realism in Human Video Generation [15.569467643817447]
異なる動き表現を用いて動きを分離することで、前景と背景のダイナミクスを同時に学習する手法を提案する。
我々は、この革新的な動きの描写アプローチによって強化された現実世界の動画を訓練する。
誤りを蓄積することなく、より長いシーケンスにビデオ生成をさらに拡張するために、クリップ・バイ・クリップ・ジェネレーション・ストラテジーを採用する。
論文 参考訳(メタデータ) (2024-05-26T00:53:26Z) - LatentMan: Generating Consistent Animated Characters using Image Diffusion Models [44.18315132571804]
テキスト・ツー・イメージ(T2I)拡散モデルに基づいて,アニメキャラクターの一貫した映像を生成するゼロショット手法を提案する。
提案手法は,既存のゼロショットT2V手法より,ピクセルワイドの一貫性とユーザ嗜好の観点からアニメーションキャラクターのビデオ生成に優れる。
論文 参考訳(メタデータ) (2023-12-12T10:07:37Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - Animate Anyone: Consistent and Controllable Image-to-Video Synthesis for Character Animation [27.700371215886683]
拡散モデルは、その堅牢な生成能力のために、視覚世代研究の主流となっている。
本稿では,キャラクターアニメーションに適した新しいフレームワークを提案する。
トレーニングデータを拡張することにより、任意の文字をアニメーション化することが可能となり、他の画像とビデオの手法と比較して、文字アニメーションにおいて優れた結果が得られる。
論文 参考訳(メタデータ) (2023-11-28T12:27:15Z) - DynamiCrafter: Animating Open-domain Images with Video Diffusion Priors [63.43133768897087]
オープンドメイン画像をアニメーションビデオに変換する手法を提案する。
鍵となるアイデアは、画像を生成プロセスに組み込むことで、テキストからビデオへの拡散モデルに先立っての動きを活用することである。
提案手法は視覚的に説得力があり、より論理的で自然な動きが得られ、入力画像への適合性が向上する。
論文 参考訳(メタデータ) (2023-10-18T14:42:16Z) - Text2Performer: Text-Driven Human Video Generation [97.3849869893433]
テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
論文 参考訳(メタデータ) (2023-04-17T17:59:02Z) - DreamPose: Fashion Image-to-Video Synthesis via Stable Diffusion [63.179505586264014]
静止画像からアニメーション・ファッション・ビデオを生成する拡散法であるDreamPoseを提案する。
そこで本手法では,人体と織物の両方の動きを収録した映像を合成する。
論文 参考訳(メタデータ) (2023-04-12T17:59:17Z) - Image Comes Dancing with Collaborative Parsing-Flow Video Synthesis [124.48519390371636]
人の動きをソースから対象人物に転送することは、コンピュータビジョンやグラフィックアプリケーションにおいて大きな可能性を秘めている。
これまでは、人工的な3Dモデルに頼っていたり、ターゲットごとに個別のモデルを訓練していた。
本研究は,ソース映像から対象人物への動きを同期的に伝達する単一モデルを学習することを目的とした,より一般的な設定について研究する。
論文 参考訳(メタデータ) (2021-10-27T03:42:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。