論文の概要: GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via
Blender-Oriented GPT Planning
- arxiv url: http://arxiv.org/abs/2311.12631v1
- Date: Tue, 21 Nov 2023 14:24:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 00:14:24.592378
- Title: GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via
Blender-Oriented GPT Planning
- Title(参考訳): GPT4Motion:Blender-Oriented GPT Planningによるテキスト・ビデオ生成における物理動作のスクリプト作成
- Authors: Jiaxi Lv and Yi Huang and Mingfu Yan and Jiancheng Huang and
Jianzhuang Liu and Yifan Liu and Yafei Wen and Xiaoxin Chen and Shifeng Chen
- Abstract要約: GPT4Motionは、コヒーレントな物理モーションでビデオを制作するためのトレーニング不要のフレームワークである。
GPT、Blenderの物理シミュレーション強度、テキスト・画像拡散モデルの優れた画像生成能力を利用する。
GPT4Motionは、動きのコヒーレンシと実体の整合性を維持する上で、高品質な動画を効率よく生成できることを示す。
- 参考スコア(独自算出の注目度): 39.584622098036064
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video generation have harnessed the power of
diffusion models to create visually compelling content conditioned on text
prompts. However, they usually encounter high computational costs and often
struggle to produce videos with coherent physical motions. To tackle these
issues, we propose GPT4Motion, a training-free framework that leverages the
planning capability of large language models such as GPT, the physical
simulation strength of Blender, and the excellent image generation ability of
text-to-image diffusion models to enhance the quality of video synthesis.
Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a
user textual prompt, which commands Blender's built-in physics engine to craft
fundamental scene components that encapsulate coherent physical motions across
frames. Then these components are inputted into Stable Diffusion to generate a
video aligned with the textual prompt. Experimental results on three basic
physical motion scenarios, including rigid object drop and collision, cloth
draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate
high-quality videos efficiently in maintaining motion coherency and entity
consistency. GPT4Motion offers new insights in text-to-video research,
enhancing its quality and broadening its horizon for future explorations.
- Abstract(参考訳): テキスト対ビデオ生成の最近の進歩は、拡散モデルの力を利用して、テキストプロンプトに基づいて視覚的に魅力的なコンテンツを作成する。
しかし、通常高い計算コストに遭遇し、コヒーレントな物理的動きを持つビデオを作るのに苦労する。
そこで本研究では,gptなどの大規模言語モデルの計画能力,ブレンダの物理シミュレーション強度,映像合成の質を高めるためのテキスト・画像拡散モデルの優れた画像生成能力を活用する,トレーニングフリーなフレームワークであるgpt4motionを提案する。
具体的には、gpt4motionはgpt-4を使用してユーザーテキストプロンプトに基づいたブレンダースクリプトを生成し、blenderの組み込み物理エンジンにフレーム間のコヒーレントな物理運動をカプセル化する基本的なシーンコンポーネントを作成するよう命令する。
そして、これらのコンポーネントを安定拡散に入力し、テキストプロンプトに合わせたビデオを生成する。
剛体物体の落下・衝突・布のドッピング・揺動・液流を含む3つの基本的な物理運動シナリオの実験結果から,GPT4Motionは動きのコヒーレンシと実体の整合性を維持する上で,高品質な映像を効率よく生成できることを示した。
GPT4Motionは、テキスト・ビデオ研究における新たな洞察を提供し、その品質を高め、将来の探査のための地平を広げる。
関連論文リスト
- TC4D: Trajectory-Conditioned Text-to-4D Generation [98.2505675929786]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - MoVideo: Motion-Aware Video Generation with Diffusion Models [102.81825637792572]
本稿では,映像深度と光フローの2つの側面から動きを考慮に入れたモーションアウェア・ジェネレーション(MoVideo)フレームワークを提案する。
MoVideoは、テキスト・トゥ・ビデオと画像・トゥ・ビデオ生成の両方で最先端の結果を達成し、期待できる即時一貫性、フレームの整合性、視覚的品質を示す。
論文 参考訳(メタデータ) (2023-11-19T13:36:03Z) - LaMD: Latent Motion Diffusion for Video Generation [69.4111397077229]
LaMDフレームワークは、モーション分解されたビデオオートエンコーダと拡散に基づくモーションジェネレータで構成される。
その結果、LaMDはダイナミックスから高度に制御可能な動きに至るまで、幅広い動きを持つ高品質なビデオを生成することがわかった。
論文 参考訳(メタデータ) (2023-04-23T10:32:32Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。