論文の概要: VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
- arxiv url: http://arxiv.org/abs/2505.23656v1
- Date: Thu, 29 May 2025 17:06:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.016681
- Title: VideoREPA: Learning Physics for Video Generation through Relational Alignment with Foundation Models
- Title(参考訳): VideoREPA: ファンデーションモデルとのリレーショナルアライメントによる映像生成のための物理学習
- Authors: Xiangdong Zhang, Jiaqi Liao, Shaofeng Zhang, Fanqing Meng, Xiangpeng Wan, Junchi Yan, Yu Cheng,
- Abstract要約: 現在のテキスト・トゥ・ビデオ(T2V)モデルは、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
本稿では,基礎モデルから物理理解能力を抽出し,基礎モデルからT2Vモデルへ変換するビデオREPAを提案する。
- 参考スコア(独自算出の注目度): 53.204403109208506
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in text-to-video (T2V) diffusion models have enabled high-fidelity and realistic video synthesis. However, current T2V models often struggle to generate physically plausible content due to their limited inherent ability to accurately understand physics. We found that while the representations within T2V models possess some capacity for physics understanding, they lag significantly behind those from recent video self-supervised learning methods. To this end, we propose a novel framework called VideoREPA, which distills physics understanding capability from video understanding foundation models into T2V models by aligning token-level relations. This closes the physics understanding gap and enable more physics-plausible generation. Specifically, we introduce the Token Relation Distillation (TRD) loss, leveraging spatio-temporal alignment to provide soft guidance suitable for finetuning powerful pre-trained T2V models, a critical departure from prior representation alignment (REPA) methods. To our knowledge, VideoREPA is the first REPA method designed for finetuning T2V models and specifically for injecting physical knowledge. Empirical evaluations show that VideoREPA substantially enhances the physics commonsense of baseline method, CogVideoX, achieving significant improvement on relevant benchmarks and demonstrating a strong capacity for generating videos consistent with intuitive physics. More video results are available at https://videorepa.github.io/.
- Abstract(参考訳): テキスト・ツー・ビデオ拡散モデル(T2V)の最近の進歩は、高忠実でリアルなビデオ合成を可能にしている。
しかしながら、現在のT2Vモデルは、物理を正確に理解する能力に制限があるため、物理的にもっともらしいコンテンツを生成するのに苦労することが多い。
その結果、T2Vモデル内の表現には物理理解能力があるものの、近年の自己教師型学習法に大きく遅れていることがわかった。
そこで本研究では,ビデオ理解基盤モデルからT2Vモデルへの物理理解能力を,トークンレベルの関係を整合させることにより蒸留する,VideoREPAという新しいフレームワークを提案する。
これは物理理解のギャップを埋め、より物理に富んだ生成を可能にする。
具体的には,T2Vモデルの微調整に適したソフトガイダンスを提供するために,時空間アライメントを利用したToken Relation Distillation (TRD) の損失を導入する。
我々の知る限り、VideoREPAはT2Vモデルを微調整し、特に物理知識を注入するために設計された最初のREPA手法である。
実験的な評価により,ビデオREPAはベースライン法であるCogVideoXの物理コモンセンスを大幅に向上させ,関連するベンチマークを大幅に改善し,直感的な物理に整合したビデオを生成する能力を示す。
詳しいビデオはhttps://videorepa.github.io/.com/で公開されている。
関連論文リスト
- Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [28.79821758835663]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。
しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。
本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文 参考訳(メタデータ) (2024-10-07T17:56:04Z) - SimDA: Simple Diffusion Adapter for Efficient Video Generation [102.90154301044095]
本稿では,強力なT2Iモデルの1.1Bパラメータのうち24Mしか微調整せず,パラメータ効率のよいビデオ生成に適応できる簡易拡散適応器(SimDA)を提案する。
野生でのT2V生成に加えて、SimDAは2分間のチューニングでワンショットビデオ編集にも使えるようになった。
論文 参考訳(メタデータ) (2023-08-18T17:58:44Z) - TPA-Net: Generate A Dataset for Text to Physics-based Animation [27.544423833402572]
本稿では,多数のマルチモーダル3Dテキスト・ツー・ビデオ・シミュレーション(T2V/S)データとのギャップを狭めるために,自律データ生成手法とデータセットを提案する。
我々は, 弾性変形, 材料破壊, 衝突, 乱流など, 様々なシナリオをシミュレートするために, 最先端の物理シミュレーション手法を利用する。
高品質なマルチビューレンダリングビデオは、T2V、Neural Radiance Fields (NeRF)、その他のコミュニティの利益のために提供されている。
論文 参考訳(メタデータ) (2022-11-25T04:26:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。