論文の概要: DirectorLLM for Human-Centric Video Generation
- arxiv url: http://arxiv.org/abs/2412.14484v1
- Date: Thu, 19 Dec 2024 03:10:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:31:31.190662
- Title: DirectorLLM for Human-Centric Video Generation
- Title(参考訳): 人中心映像生成用ディレクタLLM
- Authors: Kunpeng Song, Tingbo Hou, Zecheng He, Haoyu Ma, Jialiang Wang, Animesh Sinha, Sam Tsai, Yaqiao Luo, Xiaoliang Dai, Li Chen, Xide Xia, Peizhao Zhang, Peter Vajda, Ahmed Elgammal, Felix Juefei-Xu,
- Abstract要約: ビデオ内の人間のポーズを整理するために,大規模言語モデル(LLM)を用いた新しいビデオ生成モデルである DirectorLLM を紹介する。
我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れています。
- 参考スコア(独自算出の注目度): 46.37441947526771
- License:
- Abstract: In this paper, we introduce DirectorLLM, a novel video generation model that employs a large language model (LLM) to orchestrate human poses within videos. As foundational text-to-video models rapidly evolve, the demand for high-quality human motion and interaction grows. To address this need and enhance the authenticity of human motions, we extend the LLM from a text generator to a video director and human motion simulator. Utilizing open-source resources from Llama 3, we train the DirectorLLM to generate detailed instructional signals, such as human poses, to guide video generation. This approach offloads the simulation of human motion from the video generator to the LLM, effectively creating informative outlines for human-centric scenes. These signals are used as conditions by the video renderer, facilitating more realistic and prompt-following video generation. As an independent LLM module, it can be applied to different video renderers, including UNet and DiT, with minimal effort. Experiments on automatic evaluation benchmarks and human evaluations show that our model outperforms existing ones in generating videos with higher human motion fidelity, improved prompt faithfulness, and enhanced rendered subject naturalness.
- Abstract(参考訳): 本稿では,大規模な言語モデル (LLM) を用いて映像中の人間のポーズを編成する新しいビデオ生成モデルである DirectorLLM を紹介する。
基礎的なテキスト・ビデオモデルが急速に進化するにつれて、高品質な人間の動きと相互作用の需要が増大する。
このニーズに対処し、人間の動作の信頼性を高めるため、テキストジェネレータからビデオディレクタやヒューマンモーションシミュレータまでLLMを拡張した。
オープンソースのリソースをLlama 3から活用することで、DeleLLMをトレーニングし、人間のポーズなどの詳細な指示信号を生成し、ビデオ生成をガイドします。
このアプローチは、ビデオジェネレータからLLMへの人間の動きのシミュレーションをオフロードし、人間中心のシーンに対する情報的アウトラインを効果的に生成する。
これらの信号はビデオレンダラによって条件として使用され、より現実的で、素早く追従するビデオ生成を促進する。
独立したLLMモジュールとして、UNetやDiTなど、さまざまなビデオレンダラーに最小限の労力で適用することができる。
自動評価ベンチマークと人体評価実験の結果、我々のモデルは、人間の動きの忠実度を高め、迅速な忠実度を向上し、被写体自然性を向上する上で、既存のものよりも優れていたことが判明した。
関連論文リスト
- Towards motion from video diffusion models [10.493424298717864]
本稿では,ビデオ拡散モデルを用いて計算したスコア蒸留サンプリング(SDS)によって導かれるSMPL-Xボディ表現を変形させることにより,人間の動作を合成することを提案する。
得られたアニメーションの忠実度を解析することにより、公開されているテキスト・ビデオ拡散モデルを用いて、動作の程度を把握できる。
論文 参考訳(メタデータ) (2024-11-19T19:35:28Z) - HumanVid: Demystifying Training Data for Camera-controllable Human Image Animation [64.37874983401221]
人間の画像アニメーションに適した,最初の大規模高品質データセットであるHumanVidを紹介する。
実世界のデータについては、インターネットから大量の実世界のビデオをコンパイルします。
合成データとして,10K3Dアバターを収集し,体形,肌のテクスチャ,衣服などの既存の資産を利用した。
論文 参考訳(メタデータ) (2024-07-24T17:15:58Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - MotionLLM: Understanding Human Behaviors from Human Motions and Videos [40.132643319573205]
この研究は、人間の行動理解の多様性(ビデオと運動のモダリティ)の領域を掘り下げる。
我々は、人間の動作理解、キャプション、推論のためのフレームワークであるMotionLLMを紹介する。
論文 参考訳(メタデータ) (2024-05-30T17:59:50Z) - Video-Driven Animation of Neural Head Avatars [3.5229503563299915]
高品質なニューラル3Dヘッドモデルの映像駆動型アニメーションに対する新しいアプローチを提案する。
本研究では、個人に依存しない表現特徴をパーソナライズされたアニメーションパラメータに翻訳できるLSTMベースのアニメーションネットワークを提案する。
論文 参考訳(メタデータ) (2024-03-07T10:13:48Z) - Learning an Actionable Discrete Diffusion Policy via Large-Scale Actionless Video Pre-Training [69.54948297520612]
ジェネラリストの具体化エージェントを学ぶことは、主にアクションラベル付きロボットデータセットの不足に起因して、課題を提起する。
これらの課題に対処するための新しい枠組みを導入し、人間のビデオにおける生成前トレーニングと、少数のアクションラベル付きロボットビデオのポリシー微調整を組み合わせるために、統一された離散拡散を利用する。
提案手法は, 従来の最先端手法と比較して, 高忠実度な今後の計画ビデオを生成し, 細調整されたポリシーを強化する。
論文 参考訳(メタデータ) (2024-02-22T09:48:47Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - MotionGPT: Finetuned LLMs Are General-Purpose Motion Generators [108.67006263044772]
本稿では,マルチモーダル制御信号を利用するMotionGPT(Motion General-Purpose generaTor)を提案する。
まず,マルチモーダル制御信号を離散符号に量子化し,それらを統一的なプロンプト命令で定式化する。
我々のMotionGPTは、LLMパラメータのわずか0.4%をチューニングすることで、マルチモーダル制御信号を用いた統一された人の動き生成モデルを示す。
論文 参考訳(メタデータ) (2023-06-19T12:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。