論文の概要: PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
- arxiv url: http://arxiv.org/abs/2412.00596v1
- Date: Sat, 30 Nov 2024 22:02:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:50:03.400498
- Title: PhyT2V: LLM-Guided Iterative Self-Refinement for Physics-Grounded Text-to-Video Generation
- Title(参考訳): PhyT2V:物理誘導型テキスト・ビデオ生成のためのLCM誘導反復自己精製
- Authors: Qiyao Xue, Xiangyu Yin, Boyuan Yang, Wei Gao,
- Abstract要約: 我々は、現在のT2Vモデルによるビデオ生成能力をアウト・オブ・ディストリビューション領域に拡張する、データに依存しない新しいT2V技術であるPhyT2Vを提案する。
実験の結果,PhyT2Vは既存のT2Vモデルと実世界の物理規則との適合性を2.3倍改善し,T2Vプロンプトエンハンサーに比べて35%改善した。
- 参考スコア(独自算出の注目度): 4.98706730396778
- License:
- Abstract: Text-to-video (T2V) generation has been recently enabled by transformer-based diffusion models, but current T2V models lack capabilities in adhering to the real-world common knowledge and physical rules, due to their limited understanding of physical realism and deficiency in temporal modeling. Existing solutions are either data-driven or require extra model inputs, but cannot be generalizable to out-of-distribution domains. In this paper, we present PhyT2V, a new data-independent T2V technique that expands the current T2V model's capability of video generation to out-of-distribution domains, by enabling chain-of-thought and step-back reasoning in T2V prompting. Our experiments show that PhyT2V improves existing T2V models' adherence to real-world physical rules by 2.3x, and achieves 35% improvement compared to T2V prompt enhancers. The source codes are available at: https://github.com/pittisl/PhyT2V.
- Abstract(参考訳): テキスト・ツー・ビデオ(T2V)生成は、近年、トランスフォーマーベースの拡散モデルによって実現されているが、現在のT2Vモデルは、時間的モデリングにおける物理的リアリズムと不足に対する限定的な理解のため、現実世界の共通知識と物理規則に固執する能力が欠如している。
既存のソリューションはデータ駆動か、追加のモデル入力を必要とするが、アウト・オブ・ディストリビューション領域には一般化できない。
本稿では、T2Vプロンプトにおけるチェーンオブ思考とステップバック推論を可能にすることにより、現在のT2Vモデルの動画生成能力をアウトオブディストリビューション領域に拡張する新しいデータ非依存型T2V技術であるPhyT2Vを提案する。
実験の結果,PhyT2Vは既存のT2Vモデルと実世界の物理規則との適合性を2.3倍改善し,T2Vプロンプトエンハンサーに比べて35%改善した。
ソースコードは、https://github.com/pittisl/PhyT2V.comで入手できる。
関連論文リスト
- TED-VITON: Transformer-Empowered Diffusion Models for Virtual Try-On [78.33688031340698]
TED-VITONはGarment Semantic (GS) Adapterを統合した新しいフレームワークである。
これらのイノベーションは、視覚的品質とテキストの忠実さにおける最先端(SOTA)のパフォーマンスを可能にする。
論文 参考訳(メタデータ) (2024-11-26T01:00:09Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - VideoElevator: Elevating Video Generation Quality with Versatile
Text-to-Image Diffusion Models [94.25084162939488]
テキスト間拡散モデル(T2V)は、フレーム品質とテキストアライメントがまだ遅れている。
我々は,T2Iの優れた機能を利用して,T2Vの性能を向上させる,トレーニングフリーでプラグアンドプレイの手法であるVideoElevatorを紹介した。
論文 参考訳(メタデータ) (2024-03-08T16:44:54Z) - I2V-Adapter: A General Image-to-Video Adapter for Diffusion Models [80.32562822058924]
テキスト誘導画像合成(I2V)は、入力画像の同一性を保持するコヒーレントなビデオを生成することを目的としている。
I2V-Adapterは、クロスフレームアテンション機構を介して、未通知の入力画像を後続のノイズフレームに適応的に伝搬する。
実験の結果,I2V-Adapterは高品質な動画を制作できることがわかった。
論文 参考訳(メタデータ) (2023-12-27T19:11:50Z) - Fuse Your Latents: Video Editing with Multi-source Latent Diffusion Models [66.12367865049572]
遅延拡散モデル(LDM)は、画像合成やビデオ合成において強力な能力を持つことで有名である。
本稿では,T2I と T2V LDM を統合し,高品質なテキスト・ツー・ビデオ(T2V)編集を実現するフレームワークであるFLDMを提案する。
本稿では,T2I と T2V の LDM が,構造的・時間的整合性において相互に補完可能であることを初めて明らかにする。
論文 参考訳(メタデータ) (2023-10-25T06:35:01Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - T2I-Adapter: Learning Adapters to Dig out More Controllable Ability for
Text-to-Image Diffusion Models [29.280739915676737]
我々は、T2Iモデルの内部知識を外部制御信号と整合させるため、シンプルで軽量なT2I-Adapterを学習する。
私たちのT2I-Adapterは、将来性のある生成品質と幅広いアプリケーションを持っています。
論文 参考訳(メタデータ) (2023-02-16T17:56:08Z) - Tune-A-Video: One-Shot Tuning of Image Diffusion Models for
Text-to-Video Generation [31.882356164068753]
テキスト・トゥ・イメージ(T2I)生成の成功を再現するため、最近のテキスト・トゥ・ビデオ(T2V)生成では、T2V生成のためのデータセットに大量のデータセットが使用されている。
そこで本研究では,Tune-A-Videoが様々なアプリケーション上で時間的コヒーレントなビデオを生成することを提案する。
論文 参考訳(メタデータ) (2022-12-22T09:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。