論文の概要: Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement
- arxiv url: http://arxiv.org/abs/2511.20280v1
- Date: Tue, 25 Nov 2025 13:09:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-26 17:37:04.470255
- Title: Bootstrapping Physics-Grounded Video Generation through VLM-Guided Iterative Self-Refinement
- Title(参考訳): VLM誘導反復自己再生によるブートストラップ物理周辺ビデオ生成
- Authors: Yang Liu, Xilin Zhao, Peisong Wen, Siran Dai, Qingming Huang,
- Abstract要約: 本稿では,映像生成のための物理対応ガイダンスを提供するための反復的自己再構成フレームワークを提案する。
物理的不整合からのフィードバックに基づいてプロンプトを洗練させるマルチモーダル・チェーン・オブ・シント(MM-CoT)プロセスを導入する。
PhyIQベンチマーク実験の結果,物理IQのスコアは56.31から62.38に改善した。
- 参考スコア(独自算出の注目度): 51.54051161067026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent progress in video generation has led to impressive visual quality, yet current models still struggle to produce results that align with real-world physical principles. To this end, we propose an iterative self-refinement framework that leverages large language models and vision-language models to provide physics-aware guidance for video generation. Specifically, we introduce a multimodal chain-of-thought (MM-CoT) process that refines prompts based on feedback from physical inconsistencies, progressively enhancing generation quality. This method is training-free and plug-and-play, making it readily applicable to a wide range of video generation models. Experiments on the PhyIQ benchmark show that our method improves the Physics-IQ score from 56.31 to 62.38. We hope this work serves as a preliminary exploration of physics-consistent video generation and may offer insights for future research.
- Abstract(参考訳): ビデオ生成の最近の進歩は、目覚ましい視覚的品質をもたらすが、現在のモデルは、現実世界の物理原理に沿った結果を生み出すのに苦戦している。
そこで本稿では,大規模言語モデルと視覚言語モデルを活用した反復的自己修正フレームワークを提案する。
具体的には、物理的不整合からのフィードバックに基づいてプロンプトを洗練し、生成品質を漸進的に向上させるマルチモーダルチェーン・オブ・シント(MM-CoT)プロセスを導入する。
この方法は、トレーニング不要でプラグアンドプレイであり、幅広いビデオ生成モデルに容易に適用できる。
PhyIQベンチマーク実験の結果,物理IQのスコアは56.31から62.38に改善した。
この研究が物理に一貫性のあるビデオ生成の予備的な探索となり、将来の研究に洞察を与えることを期待している。
関連論文リスト
- PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - Improving the Physics of Video Generation with VJEPA-2 Reward Signal [28.62446995107834]
最先端のビデオ生成モデルは、物理的な理解が極めて限られている。
直感的な物理理解は、自然なビデオでSSLの事前トレーニングから現れている。
VJEPA-2を報酬信号として活用することにより、最先端のビデオ生成モデルの物理的妥当性を6%向上できることを示す。
論文 参考訳(メタデータ) (2025-10-22T13:40:38Z) - Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoPhy: Evaluating Physical Commonsense for Video Generation [93.28748850301949]
生成したビデオが現実世界のアクティビティの物理的常識に従うかどうかを評価するためのベンチマークであるVideoPhyを提示する。
そして、さまざまな最先端のテキスト・ビデオ生成モデルからキャプションに条件付けされたビデオを生成する。
人間の評価では、既存のモデルには、与えられたテキストプロンプトに付着したビデオを生成する能力が欠けていることが判明した。
論文 参考訳(メタデータ) (2024-06-05T17:53:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。