論文の概要: MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis
- arxiv url: http://arxiv.org/abs/2512.04221v1
- Date: Wed, 03 Dec 2025 19:44:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-05 21:11:45.849301
- Title: MoReGen: Multi-Agent Motion-Reasoning Engine for Code-based Text-to-Video Synthesis
- Title(参考訳): MoReGen: コードベーステキスト・ビデオ合成のためのマルチエージェントモーション推論エンジン
- Authors: Xiangyu Bai, He Liang, Bishoy Galoaa, Utsav Nandi, Shayda Moezzi, Yuhang He, Sarah Ostadabbas,
- Abstract要約: ニュートンの運動制御によるテキスト・ビデオ生成と評価について検討し,身体的精度と動きのコヒーレンスを重視した。
我々は、コードドメイン内のテキストプロンプトから物理的に正確なビデオを生成するモーション対応物理グラウンドT2VフレームワークであるMoReGenを紹介する。
以上の結果から,MoReGenは物理コヒーレントな映像合成に向けての方向性を確立する一方,最先端のモデルは物理的妥当性を維持するのに苦慮していることが明らかとなった。
- 参考スコア(独自算出の注目度): 20.319439629468263
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: While text-to-video (T2V) generation has achieved remarkable progress in photorealism, generating intent-aligned videos that faithfully obey physics principles remains a core challenge. In this work, we systematically study Newtonian motion-controlled text-to-video generation and evaluation, emphasizing physical precision and motion coherence. We introduce MoReGen, a motion-aware, physics-grounded T2V framework that integrates multi-agent LLMs, physics simulators, and renderers to generate reproducible, physically accurate videos from text prompts in the code domain. To quantitatively assess physical validity, we propose object-trajectory correspondence as a direct evaluation metric and present MoReSet, a benchmark of 1,275 human-annotated videos spanning nine classes of Newtonian phenomena with scene descriptions, spatiotemporal relations, and ground-truth trajectories. Using MoReSet, we conduct experiments on existing T2V models, evaluating their physical validity through both our MoRe metrics and existing physics-based evaluators. Our results reveal that state-of-the-art models struggle to maintain physical validity, while MoReGen establishes a principled direction toward physically coherent video synthesis.
- Abstract(参考訳): テキスト・トゥ・ビデオ(T2V)生成は、フォトリアリズムにおいて顕著な進歩を遂げているが、物理原理を忠実に遵守する意図に沿ったビデオを生成することは、依然として重要な課題である。
本研究では,ニュートンの動き制御によるテキスト・ビデオ生成と評価を体系的に研究し,身体的精度と動きのコヒーレンスを重視した。
コードドメイン内のテキストプロンプトから再現可能で物理的に正確なビデオを生成するために,マルチエージェントLDM,物理シミュレータ,レンダラーを統合した動き認識型物理接地型T2VフレームワークであるMoReGenを紹介する。
物理的妥当性を定量的に評価するために, 直接評価指標としてオブジェクト・トラジェクティブ対応を提案し, 現場記述, 時空間関係, 地中トラジェクトリを含むニュートン現象の9つのクラスにまたがる1,275の人間アノテーション付きビデオのベンチマークであるMoReSetを提案する。
MoReSetを用いて、既存のT2Vモデルの実験を行い、MoReメトリクスと既存の物理ベースの評価器の両方を用いて、それらの物理的妥当性を評価する。
以上の結果から,MoReGenは物理コヒーレントな映像合成に向けての原則的方向性を確立する一方,最先端のモデルは物理的妥当性を維持するのに苦慮していることが明らかとなった。
関連論文リスト
- PhysChoreo: Physics-Controllable Video Generation with Part-Aware Semantic Grounding [50.454084539837005]
PhysChoreoは、単一の画像から多様な制御性と物理的なリアリズムを持つビデオを生成する新しいフレームワークである。
本手法は2つの段階から構成される: まず, 画像中の全ての物体の静的初期特性を, 部分認識の物理的特性再構成により推定する。
そして、時間的に指示され、物理的に編集可能なシミュレーションを通じて、リッチな動的な振る舞いと物理的なリアリズムで高品質な動画を合成する。
論文 参考訳(メタデータ) (2025-11-25T17:59:04Z) - PhysCorr: Dual-Reward DPO for Physics-Constrained Text-to-Video Generation with Automated Preference Selection [10.498184571108995]
本稿では,ビデオ生成における物理一貫性をモデリング,評価,最適化するための統合フレームワークであるPhysCorrを提案する。
具体的には、物体内安定性と物体間相互作用の両方を定量化する最初の2次元報酬モデルである物理RMを紹介する。
我々のアプローチは、モデルに依存しないスケーラブルで、幅広いビデオ拡散とトランスフォーマーベースのバックボーンへのシームレスな統合を可能にする。
論文 参考訳(メタデータ) (2025-11-06T02:40:57Z) - T2VPhysBench: A First-Principles Benchmark for Physical Consistency in Text-to-Video Generation [12.120541052871486]
生成モデルは、美的魅力と正確な指示に優れた高品質なビデオを生成する。
多くの出力は、剛体衝突、エネルギー保存、重力力学といった基本的な制約に反する。
既存の物理的評価ベンチマークは、単純化されたライフシナリオプロンプトに適用される、自動的なピクセルレベルのメトリクスに依存している。
textbfT2VPhysBenchは、最先端のテキスト・ビデオシステムが12の物理法則に従うかどうかを体系的に評価する第一原理ベンチマークである。
論文 参考訳(メタデータ) (2025-05-01T06:34:55Z) - Morpheus: Benchmarking Physical Reasoning of Video Generative Models with Real Physical Experiments [55.56181322973467]
物理推論に基づく映像生成モデル評価のためのベンチマークであるMorpheusを紹介する。
物理現象を捉えた80の現実世界のビデオが保存法によってガイドされている。
我々の研究結果によると、プロンプトやビデオコンディショニングが進んだとしても、現在のモデルは物理原理をエンコードするのに苦労している。
論文 参考訳(メタデータ) (2025-04-03T15:21:17Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Enhancing Motion in Text-to-Video Generation with Decomposed Encoding and Conditioning [26.44634685830323]
本稿では,テキスト・トゥ・ビデオ(T2V)生成における動き合成を強化するためのDecomposed Motion (DEMO) という新しいフレームワークを提案する。
本手法は,静的要素のためのコンテンツエンコーダと,時間的ダイナミクスのためのモーションエンコーダと,コンテンツと動作条件の分離機構を含む。
視覚的品質を保ちながら、モーションダイナミクスを向上した動画を制作するDEMOの優れた能力を実証する。
論文 参考訳(メタデータ) (2024-10-31T17:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。