論文の概要: Fleximo: Towards Flexible Text-to-Human Motion Video Generation
- arxiv url: http://arxiv.org/abs/2411.19459v1
- Date: Fri, 29 Nov 2024 04:09:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:21:52.223928
- Title: Fleximo: Towards Flexible Text-to-Human Motion Video Generation
- Title(参考訳): Fleximo: フレキシブルテキスト・ツー・ヒューマンモーションビデオ生成を目指して
- Authors: Yuhang Zhang, Yuan Zhou, Zeyu Liu, Yuxuan Cai, Qiuyue Wang, Aidong Men, Huan Yang,
- Abstract要約: 本稿では,参照画像と自然言語のみから人間のモーションビデオを生成するための新しいタスクを提案する。
本稿では,大規模事前学習型テキスト・ツー・3Dモーションモデルを利用したFleximoというフレームワークを提案する。
Fleximoの性能を評価するために、20のアイデンティティと20のモーションにわたる400の動画を含むMotionBenchという新しいベンチマークを導入した。
- 参考スコア(独自算出の注目度): 17.579663311741072
- License:
- Abstract: Current methods for generating human motion videos rely on extracting pose sequences from reference videos, which restricts flexibility and control. Additionally, due to the limitations of pose detection techniques, the extracted pose sequences can sometimes be inaccurate, leading to low-quality video outputs. We introduce a novel task aimed at generating human motion videos solely from reference images and natural language. This approach offers greater flexibility and ease of use, as text is more accessible than the desired guidance videos. However, training an end-to-end model for this task requires millions of high-quality text and human motion video pairs, which are challenging to obtain. To address this, we propose a new framework called Fleximo, which leverages large-scale pre-trained text-to-3D motion models. This approach is not straightforward, as the text-generated skeletons may not consistently match the scale of the reference image and may lack detailed information. To overcome these challenges, we introduce an anchor point based rescale method and design a skeleton adapter to fill in missing details and bridge the gap between text-to-motion and motion-to-video generation. We also propose a video refinement process to further enhance video quality. A large language model (LLM) is employed to decompose natural language into discrete motion sequences, enabling the generation of motion videos of any desired length. To assess the performance of Fleximo, we introduce a new benchmark called MotionBench, which includes 400 videos across 20 identities and 20 motions. We also propose a new metric, MotionScore, to evaluate the accuracy of motion following. Both qualitative and quantitative results demonstrate that our method outperforms existing text-conditioned image-to-video generation methods. All code and model weights will be made publicly available.
- Abstract(参考訳): 人間のモーションビデオを生成する現在の方法は、フレキシビリティと制御を制限するリファレンスビデオからポーズシーケンスを抽出することに依存している。
さらに、ポーズ検出技術に限界があるため、抽出されたポーズシーケンスは不正確な場合があり、低品質のビデオ出力につながる。
本稿では,参照画像と自然言語のみから人間のモーションビデオを生成するための新しいタスクを提案する。
このアプローチは、テキストが望ましいガイダンスビデオよりもアクセスしやすいため、柔軟性と使いやすさを提供する。
しかし、このタスクのためにエンド・ツー・エンドのモデルをトレーニングするには、何百万もの高品質なテキストと人間のモーションビデオペアが必要である。
そこで本研究では,大規模事前学習型テキスト・ツー・3Dモーションモデルを利用したFleximoというフレームワークを提案する。
テキスト生成スケルトンは参照画像のスケールと一貫して一致せず、詳細な情報が欠落する可能性があるため、このアプローチは簡単ではない。
これらの課題を克服するために、アンカーポイントに基づく再スケール手法を導入し、欠落した詳細を補うスケルトンアダプタを設計し、テキスト・トゥ・モーションとモーション・トゥ・ビデオ生成のギャップを埋める。
また,映像品質をさらに向上させるための映像改善プロセスを提案する。
大規模言語モデル(LLM)は、自然言語を離散的な動き列に分解するために用いられ、任意の所望の長さの動画を生成することができる。
Fleximoの性能を評価するために、20のアイデンティティと20のモーションにわたる400の動画を含むMotionBenchという新しいベンチマークを導入した。
また,次の動きの精度を評価するための新しい指標であるMotionScoreを提案する。
定性的かつ定量的な結果から,本手法は既存のテキスト条件による画像・動画生成方法よりも優れていることが示された。
すべてのコードとモデルの重み付けが公開されます。
関連論文リスト
- Enhancing Motion Variation in Text-to-Motion Models via Pose and Video Conditioned Editing [0.7346176144621106]
本稿では,既存の基本動作を修正するための条件として,短いビデオクリップや画像を使用する新しい手法を提案する。
このアプローチでは、モデルのキックに対する理解が先行として機能し、フットボールキックのビデオやイメージが後部として機能する。
26名の被験者によるユーザスタディにより,本手法はテキスト・モーション・データセットにおいて,一般的に表現される動きに匹敵するリアルな動きを生み出すことを示した。
論文 参考訳(メタデータ) (2024-10-11T15:59:10Z) - Reenact Anything: Semantic Video Motion Transfer Using Motion-Textual Inversion [9.134743677331517]
本研究では、動きから外見を遠ざけるために、事前訓練された画像間映像モデルを提案する。
動作テキストインバージョン(Motion-textual Inversion)と呼ばれるこの手法は、画像から映像へのモデルが、主に(相対的な)画像入力から外観を抽出する、という観察を生かしている。
フレームごとの複数のテキスト/画像埋め込みトークンを含むインフレーションされたモーションテキスト埋め込みを操作することにより、高時間運動粒度を実現する。
動作参照ビデオと対象画像の間に空間的アライメントを必要とせず,様々な領域にまたがって一般化し,様々なタスクに適用することができる。
論文 参考訳(メタデータ) (2024-08-01T10:55:20Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - VMC: Video Motion Customization using Temporal Attention Adaption for
Text-to-Video Diffusion Models [58.93124686141781]
Video Motion Customization (VMC) はビデオ拡散モデルに時間的注意層を適応させる新しいワンショットチューニング手法である。
本研究では, 連続するフレーム間の残留ベクトルを運動基準として用いた新しい運動蒸留法を提案する。
実世界のさまざまな動きや状況にまたがる最先端のビデオ生成モデルに対して,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2023-12-01T06:50:11Z) - LAMP: Learn A Motion Pattern for Few-Shot-Based Video Generation [44.220329202024494]
我々は,1つのGPU上で816本の動画でテキストから画像への拡散モデルを学習する,数ショットベースのチューニングフレームワーク LAMP を提案する。
具体的には,コンテンツ生成のための既製のテキスト・ツー・イメージモデルを用いて,第1フレーム条件のパイプラインを設計する。
時間次元の特徴を捉えるため、T2Iモデルの事前訓練された2次元畳み込み層を、新しい時間空間運動学習層に拡張する。
論文 参考訳(メタデータ) (2023-10-16T19:03:19Z) - Text2Video-Zero: Text-to-Image Diffusion Models are Zero-Shot Video
Generators [70.17041424896507]
最近のテキスト・ビデオ生成アプローチは、計算的に重いトレーニングに依存し、大規模なビデオデータセットを必要とする。
既存のテキスト・画像合成手法を用いたゼロショットテキスト・ビデオ生成の課題を提案する。
本手法は,ビデオデータ追加の訓練を受けていないにも関わらず,近年の手法よりも多種多種多種多種多種多種多種多種多種多様である。
論文 参考訳(メタデータ) (2023-03-23T17:01:59Z) - Show Me What and Tell Me How: Video Synthesis via Multimodal
Conditioning [36.85533835408882]
本研究は,テキストと画像を共同あるいは別々に提供するマルチモーダルビデオ生成フレームワークを提案する。
本稿では,自己学習で訓練した新しいビデオトークンと,ビデオトークンをサンプリングするためのマスク予測アルゴリズムを提案する。
我々のフレームワークは、セグメンテーションマスク、描画、部分閉塞画像など、様々な視覚的モダリティを組み込むことができる。
論文 参考訳(メタデータ) (2022-03-04T21:09:13Z) - Render In-between: Motion Guided Video Synthesis for Action
Interpolation [53.43607872972194]
本研究では、リアルな人間の動きと外観を生成できる動き誘導型フレームアップサンプリングフレームワークを提案する。
大規模モーションキャプチャーデータセットを活用することにより、フレーム間の非線形骨格運動を推定するために、新しいモーションモデルが訓練される。
私たちのパイプラインでは、低フレームレートのビデオと不自由な人間のモーションデータしか必要としませんが、トレーニングには高フレームレートのビデオは必要ありません。
論文 参考訳(メタデータ) (2021-11-01T15:32:51Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。