論文の概要: Text2Performer: Text-Driven Human Video Generation
- arxiv url: http://arxiv.org/abs/2304.08483v1
- Date: Mon, 17 Apr 2023 17:59:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 13:53:04.071412
- Title: Text2Performer: Text-Driven Human Video Generation
- Title(参考訳): Text2Performer: テキスト駆動型ヒューマンビデオ生成
- Authors: Yuming Jiang, Shuai Yang, Tong Liang Koh, Wayne Wu, Chen Change Loy,
Ziwei Liu
- Abstract要約: テキストによるコンテンツ制作は、創造性に革命をもたらす変革的技術へと進化してきた。
そこで本研究では,対象パフォーマーの外観や動きを記述したテキストから映像シーケンスを合成する,テキスト駆動型ヒューマンビデオ生成の課題について検討する。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
- 参考スコア(独自算出の注目度): 97.3849869893433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-driven content creation has evolved to be a transformative technique
that revolutionizes creativity. Here we study the task of text-driven human
video generation, where a video sequence is synthesized from texts describing
the appearance and motions of a target performer. Compared to general
text-driven video generation, human-centric video generation requires
maintaining the appearance of synthesized human while performing complex
motions. In this work, we present Text2Performer to generate vivid human videos
with articulated motions from texts. Text2Performer has two novel designs: 1)
decomposed human representation and 2) diffusion-based motion sampler. First,
we decompose the VQVAE latent space into human appearance and pose
representation in an unsupervised manner by utilizing the nature of human
videos. In this way, the appearance is well maintained along the generated
frames. Then, we propose continuous VQ-diffuser to sample a sequence of pose
embeddings. Unlike existing VQ-based methods that operate in the discrete
space, continuous VQ-diffuser directly outputs the continuous pose embeddings
for better motion modeling. Finally, motion-aware masking strategy is designed
to mask the pose embeddings spatial-temporally to enhance the temporal
coherence. Moreover, to facilitate the task of text-driven human video
generation, we contribute a Fashion-Text2Video dataset with manually annotated
action labels and text descriptions. Extensive experiments demonstrate that
Text2Performer generates high-quality human videos (up to 512x256 resolution)
with diverse appearances and flexible motions.
- Abstract(参考訳): テキスト駆動コンテンツ作成は、創造性に革命をもたらす変革的な技術へと進化した。
本稿では,対象の演奏者の表情や動きを記述したテキストから映像列を合成する,テキスト駆動型映像生成の課題について検討する。
一般的なテキスト駆動ビデオ生成と比較して、人間中心のビデオ生成は複雑な動きをしながら合成された人間の外観を維持する必要がある。
そこで本研究では,テキストから手話による映像を鮮明に生成するText2Performerを提案する。
Text2Performerには2つの新しいデザインがある。
1)人間の表現と分解
2)拡散型モーションサンプリング装置
まず,vqvae潜伏空間を人間の外観に分解し,人間の映像の性質を生かして,教師なしの姿勢表現を行う。
このようにして、生成したフレームに沿って外観が良好に維持される。
次に,ポーズ埋め込みの列をサンプリングする連続型vqディフューザを提案する。
離散空間で動作する既存のvqベースの手法とは異なり、連続vq-diffuserはより優れた動きモデリングのために連続的なポーズ埋め込みを直接出力する。
最後に、ポーズ埋め込みを時空間的に隠蔽し、時間的コヒーレンスを高めるために、動き認識型マスキング戦略を設計する。
さらに,テキスト駆動型ビデオ生成の作業を容易にするために,手作業で注釈付きアクションラベルとテキスト記述を付与したファッションテキスト2ビデオデータセットを寄贈する。
大規模な実験により、Text2Performerは、さまざまな外観と柔軟な動きを持つ高品質な人間ビデオ(最大512x256解像度)を生成する。
関連論文リスト
- Text-Animator: Controllable Visual Text Video Generation [149.940821790235]
ビジュアルテキストビデオ生成のための革新的アプローチであるText-Animatorを提案する。
Text-Animatorには、生成されたビデオの視覚的テキスト構造を正確に描写するテキスト埋め込みインジェクションモジュールが含まれている。
また、生成した視覚テキストの安定性を向上させるために、カメラ制御モジュールとテキストリファインメントモジュールを開発する。
論文 参考訳(メタデータ) (2024-06-25T17:59:41Z) - Towards 4D Human Video Stylization [56.33756124829298]
本稿では,4D(3Dおよび時間)の映像スタイリングに向けての第一歩として,スタイル変換,新しいビュー合成,人間アニメーションについて述べる。
我々はNeural Radiance Fields(NeRF)を利用してビデオを表現する。
我々のフレームワークは、斬新なポーズや視点に対応する能力を独自に拡張し、クリエイティブなヒューマンビデオスタイリングのための汎用的なツールとなる。
論文 参考訳(メタデータ) (2023-12-07T08:58:33Z) - Make Pixels Dance: High-Dynamic Video Generation [13.944607760918997]
最先端のビデオ生成手法は、高い忠実さを維持しつつも、最小限のモーションでビデオクリップを生成する傾向がある。
ビデオ生成のためのテキスト命令と合わせて,第1フレームと第2フレームの両方のイメージ命令を組み込んだ,新しいアプローチであるPixelDanceを紹介する。
論文 参考訳(メタデータ) (2023-11-18T06:25:58Z) - Fg-T2M: Fine-Grained Text-Driven Human Motion Generation via Diffusion
Model [11.873294782380984]
そこで本研究では,高精度なテキスト記述をサポートする高品質な条件付き人間の動作シーケンスを生成するための微細な手法を提案する。
本手法は,1) テキスト情報を完全に活用するための正確かつ完全な言語特徴を構築する言語構造支援モジュール,2) 多段階推論を実現するために,浅層および深層グラフニューラルネットワークから近隣および総合的な意味論的特徴を学習する文脈認識プログレッシブ推論モジュールの2つの主要な構成要素から構成される。
論文 参考訳(メタデータ) (2023-09-12T14:43:47Z) - Dancing Avatar: Pose and Text-Guided Human Motion Videos Synthesis with
Image Diffusion Model [57.855362366674264]
そこで我々は,ポーズやテキストによる手動動画を製作するためのDancing Avatarを提案する。
提案手法では,事前学習したT2I拡散モデルを用いて,各映像フレームを自己回帰的に生成する。
論文 参考訳(メタデータ) (2023-08-15T13:00:42Z) - Make-A-Video: Text-to-Video Generation without Text-Video Data [69.20996352229422]
Make-A-Videoは、テキスト・トゥ・イメージ(T2I)生成における最新の進歩をテキスト・トゥ・ビデオ(T2V)に変換するアプローチである。
我々は,新しい空間時空間モジュールを用いたT2Iモデル上に構築する,シンプルで効果的な手法を設計する。
空間的および時間的解像度、テキストへの忠実さ、品質など、あらゆる面で、Make-A-Videoは、テキスト・ビデオ生成における新しい最先端を定めている。
論文 参考訳(メタデータ) (2022-09-29T13:59:46Z) - TM2T: Stochastic and Tokenized Modeling for the Reciprocal Generation of
3D Human Motions and Texts [20.336481832461168]
視覚と言語との強い結びつきから着想を得た本論文は,テキストから3次元人間のフルボディ運動の生成を探求することを目的とする。
本稿では,離散的かつコンパクトな動き表現である動きトークンを提案する。
私たちのアプローチは柔軟で、text2motionと Motion2textタスクの両方に使用できます。
論文 参考訳(メタデータ) (2022-07-04T19:52:18Z) - TEMOS: Generating diverse human motions from textual descriptions [53.85978336198444]
テキスト記述から多種多様な人間の動作を生成するという課題に対処する。
本研究では,人間の動作データを用いた可変オートエンコーダ(VAE)トレーニングを利用したテキスト条件生成モデルTEMOSを提案する。
TEMOSフレームワークは,従来のような骨格に基づくアニメーションと,より表現力のあるSMPLボディモーションの両方を生成可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T14:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。