論文の概要: GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
- arxiv url: http://arxiv.org/abs/2311.12631v3
- Date: Tue, 23 Apr 2024 12:24:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-24 19:45:27.577636
- Title: GPT4Motion: Scripting Physical Motions in Text-to-Video Generation via Blender-Oriented GPT Planning
- Title(参考訳): GPT4Motion:Blender-Oriented GPT Planningによるテキスト・ビデオ生成における物理動作のスクリプト作成
- Authors: Jiaxi Lv, Yi Huang, Mingfu Yan, Jiancheng Huang, Jianzhuang Liu, Yifan Liu, Yafei Wen, Xiaoxin Chen, Shifeng Chen,
- Abstract要約: GPT4Motionは、コヒーレントな物理モーションでビデオを制作するためのトレーニング不要のフレームワークである。
GPT、Blenderの物理シミュレーション強度、テキスト・画像拡散モデルの優れた画像生成能力を利用する。
GPT4Motionは、動きのコヒーレンシと実体の整合性を維持する上で、高品質な動画を効率よく生成できることを示す。
- 参考スコア(独自算出の注目度): 38.149959205354534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in text-to-video generation have harnessed the power of diffusion models to create visually compelling content conditioned on text prompts. However, they usually encounter high computational costs and often struggle to produce videos with coherent physical motions. To tackle these issues, we propose GPT4Motion, a training-free framework that leverages the planning capability of large language models such as GPT, the physical simulation strength of Blender, and the excellent image generation ability of text-to-image diffusion models to enhance the quality of video synthesis. Specifically, GPT4Motion employs GPT-4 to generate a Blender script based on a user textual prompt, which commands Blender's built-in physics engine to craft fundamental scene components that encapsulate coherent physical motions across frames. Then these components are inputted into Stable Diffusion to generate a video aligned with the textual prompt. Experimental results on three basic physical motion scenarios, including rigid object drop and collision, cloth draping and swinging, and liquid flow, demonstrate that GPT4Motion can generate high-quality videos efficiently in maintaining motion coherency and entity consistency. GPT4Motion offers new insights in text-to-video research, enhancing its quality and broadening its horizon for further explorations.
- Abstract(参考訳): テキスト・ビデオ生成の最近の進歩は、拡散モデルの力を利用して、テキスト・プロンプトに基づいて視覚的に魅力的なコンテンツを作成する。
しかし、通常は高い計算コストに遭遇し、コヒーレントな物理モーションでビデオを作るのに苦労する。
GPT4Motionは,GPTなどの大規模言語モデルの計画能力,Blenderの物理シミュレーション強度,テキスト・画像拡散モデルの優れた画像生成能力を活用して映像合成の質を向上させる。
具体的には、GPT4MotionはGPT-4を使用して、ユーザのテキストプロンプトに基づいてBlenderスクリプトを生成する。
そして、これらのコンポーネントを安定拡散に入力し、テキストプロンプトに合わせたビデオを生成する。
剛体物体の落下・衝突・布のドッピング・揺動・液流を含む3つの基本的な物理運動シナリオの実験結果から,GPT4Motionは動きのコヒーレンシと実体の整合性を維持する上で,高品質な映像を効率よく生成できることを示した。
GPT4Motionは、テキスト・ビデオ研究における新たな洞察を提供し、その品質を高め、さらなる探索のための地平を広げる。
関連論文リスト
- Motion Control for Enhanced Complex Action Video Generation [17.98485830881648]
既存のテキスト・ツー・ビデオ(T2V)モデルは、十分に発音または複雑なアクションでビデオを生成するのに苦労することが多い。
そこで本稿では, 高精度な流体アクションで長編ビデオを生成するための新しいフレームワークであるMVideoを提案する。
MVideoは、追加の動作条件入力としてマスクシーケンスを組み込むことで、テキストプロンプトの制限を克服する。
論文 参考訳(メタデータ) (2024-11-13T04:20:45Z) - Tex4D: Zero-shot 4D Scene Texturing with Video Diffusion Models [54.35214051961381]
3Dメッシュはコンピュータビジョンとグラフィックスにおいて、アニメーションの効率と映画、ゲーム、AR、VRにおける最小限のメモリ使用のために広く利用されている。
しかし、メッシュのための時間的一貫性と現実的なテクスチャを作成することは、プロのアーティストにとって労働集約的だ。
本稿では、メッシュ配列から固有の幾何学とビデオ拡散モデルを統合することで、一貫したテクスチャを生成する3Dテクスチャシーケンスを提案する。
論文 参考訳(メタデータ) (2024-10-14T17:59:59Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z) - DreamPhysics: Learning Physical Properties of Dynamic 3D Gaussians with Video Diffusion Priors [75.83647027123119]
本稿では,映像拡散前の物体の物理的特性を学習することを提案する。
次に,物理に基づくMaterial-Point-Methodシミュレータを用いて,現実的な動きを伴う4Dコンテンツを生成する。
論文 参考訳(メタデータ) (2024-06-03T16:05:25Z) - TC4D: Trajectory-Conditioned Text-to-4D Generation [94.90700997568158]
提案するTC4D: trajectory-conditioned text-to-4D 生成は,グローバルおよびローカルなコンポーネントへの移動を要因とする。
我々は,テキスト・ビデオ・モデルから,グローバルな軌跡に適合する局所的な変形を観察する。
提案手法は,任意の軌跡に沿ってアニメーションされたシーンの合成,構成シーンの生成,および生成した動きのリアリズムと量に対する大幅な改善を可能にする。
論文 参考訳(メタデータ) (2024-03-26T17:55:11Z) - LivePhoto: Real Image Animation with Text-guided Motion Control [51.31418077586208]
この研究はLivePhotoという名前の実用的なシステムを示し、ユーザーが興味のある画像をテキスト記述でアニメーション化することができる。
まず、よく学習されたテキスト・ツー・イメージ・ジェネレータ(すなわち、安定拡散)がさらに入力として画像を取るのを助ける強力なベースラインを確立する。
次に、時間的モデリングのためのモーションモジュールを改良されたジェネレータに装備し、テキストとモーションのリンクをより良くするための、慎重に設計されたトレーニングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-12-05T17:59:52Z) - FLAME: Free-form Language-based Motion Synthesis & Editing [17.70085940884357]
FLAMEと呼ばれる拡散型モーション合成・編集モデルを提案する。
FLAMEは、与えられたテキストによく整合した高忠実な動作を生成することができる。
フレームワイドでもジョイントワイドでも、微調整なしで動きの一部を編集できます。
論文 参考訳(メタデータ) (2022-09-01T10:34:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。