論文の概要: Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge
- arxiv url: http://arxiv.org/abs/2411.11343v1
- Date: Mon, 18 Nov 2024 07:26:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:27:20.698175
- Title: Teaching Video Diffusion Model with Latent Physical Phenomenon Knowledge
- Title(参考訳): 物理現象を学習したビデオ拡散モデル
- Authors: Qinglong Cao, Ding Wang, Xirui Li, Yuntian Chen, Chao Ma, Xiaokang Yang,
- Abstract要約: 本稿では,物理現象の知識が潜むビデオ拡散モデルを教える新しい手法を提案する。
CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成する。
物理現象の数値シミュレーションと実世界観測の両方を通して,本手法を広範囲に検証した。
- 参考スコア(独自算出の注目度): 49.60640053101214
- License:
- Abstract: Video diffusion models have exhibited tremendous progress in various video generation tasks. However, existing models struggle to capture latent physical knowledge, failing to infer physical phenomena that are challenging to articulate with natural language. Generating videos following the fundamental physical laws is still an opening challenge. To address this challenge, we propose a novel method to teach video diffusion models with latent physical phenomenon knowledge, enabling the accurate generation of physically informed phenomena. Specifically, we first pretrain Masked Autoencoders (MAE) to reconstruct the physical phenomena, resulting in output embeddings that encapsulate latent physical phenomenon knowledge. Leveraging these embeddings, we could generate the pseudo-language prompt features based on the aligned spatial relationships between CLIP vision and language encoders. Particularly, given that diffusion models typically use CLIP's language encoder for text prompt embeddings, our approach integrates the CLIP visual features informed by latent physical knowledge into a quaternion hidden space. This enables the modeling of spatial relationships to produce physical knowledge-informed pseudo-language prompts. By incorporating these prompt features and fine-tuning the video diffusion model in a parameter-efficient manner, the physical knowledge-informed videos are successfully generated. We validate our method extensively through both numerical simulations and real-world observations of physical phenomena, demonstrating its remarkable performance across diverse scenarios.
- Abstract(参考訳): ビデオ拡散モデルは、様々なビデオ生成タスクにおいて大きな進歩を見せている。
しかし、既存のモデルは潜伏した物理知識を捉えるのに苦労し、自然言語で表現するのが難しい物理現象を推測することができない。
基本的な物理法則に従ってビデオを生成することは、まだ未解決の課題だ。
この課題に対処するため,本研究では,物理現象の正確な生成を可能にするために,映像拡散モデルに潜時的な物理現象の知識で教える新しい手法を提案する。
具体的には、まずMasked Autoencoders (MAE) を事前訓練し、物理現象を再現し、潜在する物理現象の知識をカプセル化する出力埋め込みを実現する。
これらの埋め込みを利用して、CLIPビジョンと言語エンコーダの空間的関係に基づいて擬似言語プロンプトを生成できる。
特に拡散モデルではテキストのプロンプト埋め込みにCLIPの言語エンコーダを使用することが多いため,本手法では,潜伏した物理知識から得られるCLIPの視覚的特徴を四元数隠れ空間に統合する。
これにより、空間関係のモデリングにより、物理的知識をインフォームドした擬似言語プロンプトを生成することができる。
これらの素早い特徴を取り入れ、パラメータ効率の良いビデオ拡散モデルを微調整することにより、物理知識情報付き映像をうまく生成する。
本手法は,物理現象の数値シミュレーションと実世界観測の両方を通して広範囲に検証し,様々なシナリオにおいてその顕著な性能を示す。
関連論文リスト
- FLIER: Few-shot Language Image Models Embedded with Latent Representations [2.443383032451177]
画像認識のための潜在表現(FLIER)を組み込んだFew-shot Language Image Model。
まず、GPT-3からのテキスト入力で、安定拡散による画像とそれに対応する潜在表現を生成する。
潜在表現を「モデル理解可能なピクセル」として、2つの畳み込み層を持つ柔軟な畳み込みニューラルネットワークを導入し、潜り込みエンコーダとする。
論文 参考訳(メタデータ) (2024-10-10T06:27:46Z) - Towards Multi-Task Multi-Modal Models: A Video Generative Perspective [5.495245220300184]
この論文は、さまざまな条件下でビデオやその他のモダリティを生成するマルチタスクモデルを構築するために、我々の努力を年代記している。
我々は、視覚的観察と解釈可能な語彙の双方向マッピングのための新しいアプローチを公表する。
私たちのスケーラブルなビジュアルトークン表現は、生成、圧縮、理解タスクで有益であることが証明されます。
論文 参考訳(メタデータ) (2024-05-26T23:56:45Z) - Video-LaVIT: Unified Video-Language Pre-training with Decoupled Visual-Motional Tokenization [52.63845811751936]
ダイナミックスビデオのモデリングのため、ビデオ事前トレーニングは難しい。
本稿では,ビデオ事前学習におけるこのような制限を,効率的なビデオ分解によって解決する。
筆者らのフレームワークは,13のマルチモーダルベンチマークにおいて,画像と映像のコンテントの理解と生成が可能であることを実証した。
論文 参考訳(メタデータ) (2024-02-05T16:30:49Z) - Generating Action-conditioned Prompts for Open-vocabulary Video Action
Recognition [63.95111791861103]
既存の方法は、訓練済みの画像テキストモデルをビデオ領域に適応させるのが一般的である。
我々は、人間の事前知識によるテキスト埋め込みの強化が、オープン語彙のビデオ行動認識の鍵となると論じている。
提案手法は,新たなSOTA性能を設定できるだけでなく,解釈性にも優れる。
論文 参考訳(メタデータ) (2023-12-04T02:31:38Z) - LLM-grounded Video Diffusion Models [57.23066793349706]
ビデオ拡散モデルは、ニューラル・テンポラル・ジェネレーションのための有望なツールとして登場した。
現在のモデルはプロンプトに苦しむが、しばしば制限されたり、誤った動きをする。
LLM-grounded Video Diffusion (LVD)を紹介する。
以上の結果から,LVDはベース映像拡散モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2023-09-29T17:54:46Z) - Diffusion Models as Masked Autoencoders [52.442717717898056]
拡散モデルに対する近年の関心を踏まえて、生成的に事前学習された視覚表現を再考する。
拡散モデルによる直接事前学習では強い表現は得られないが、マスク付き入力上での拡散モデルと公式拡散モデルをマスク付きオートエンコーダ(DiffMAE)として条件付ける。
設計選択の長所と短所について包括的な研究を行い、拡散モデルとマスク付きオートエンコーダ間の接続を構築する。
論文 参考訳(メタデータ) (2023-04-06T17:59:56Z) - Latent Diffusion for Language Generation [26.620353485679892]
言語への拡散を適応しようとする最近の試みは、既存の言語モデルの代替として拡散を提示している。
我々は,エンコーダ-デコーダ言語モデルを用いて,高品質なオートエンコーダを効率的に学習できることを実証した。
非条件, クラス条件, シーケンス・ツー・シーケンス言語生成に対する提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2022-12-19T13:57:06Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Learning to Identify Physical Parameters from Video Using Differentiable
Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文 参考訳(メタデータ) (2020-09-17T13:36:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。