論文の概要: Planning with Sketch-Guided Verification for Physics-Aware Video Generation
- arxiv url: http://arxiv.org/abs/2511.17450v1
- Date: Fri, 21 Nov 2025 17:48:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-24 18:08:19.153564
- Title: Planning with Sketch-Guided Verification for Physics-Aware Video Generation
- Title(参考訳): 物理対応映像生成のためのスケッチガイドによる検証による計画
- Authors: Yidong Huang, Zun Wang, Han Lin, Dong-Ki Kim, Shayegan Omidshafiei, Jaehong Yoon, Yue Zhang, Mohit Bansal,
- Abstract要約: そこで我々は,SketchVerifyを,ビデオ生成のためのトレーニングフリーでスケッチ検証ベースの計画フレームワークとして提案する。
提案手法は,複数の候補動きプランを予測し,視覚言語検証器を用いてランク付けする。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
- 参考スコア(独自算出の注目度): 71.29706409814324
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent video generation approaches increasingly rely on planning intermediate control signals such as object trajectories to improve temporal coherence and motion fidelity. However, these methods mostly employ single-shot plans that are typically limited to simple motions, or iterative refinement which requires multiple calls to the video generator, incuring high computational cost. To overcome these limitations, we propose SketchVerify, a training-free, sketch-verification-based planning framework that improves motion planning quality with more dynamically coherent trajectories (i.e., physically plausible and instruction-consistent motions) prior to full video generation by introducing a test-time sampling and verification loop. Given a prompt and a reference image, our method predicts multiple candidate motion plans and ranks them using a vision-language verifier that jointly evaluates semantic alignment with the instruction and physical plausibility. To efficiently score candidate motion plans, we render each trajectory as a lightweight video sketch by compositing objects over a static background, which bypasses the need for expensive, repeated diffusion-based synthesis while achieving comparable performance. We iteratively refine the motion plan until a satisfactory one is identified, which is then passed to the trajectory-conditioned generator for final synthesis. Experiments on WorldModelBench and PhyWorldBench demonstrate that our method significantly improves motion quality, physical realism, and long-term consistency compared to competitive baselines while being substantially more efficient. Our ablation study further shows that scaling up the number of trajectory candidates consistently enhances overall performance.
- Abstract(参考訳): 最近のビデオ生成手法は、時間的コヒーレンスや動きの忠実性を改善するために、物体軌道のような中間制御信号の計画にますます依存している。
しかし、これらの手法は主に単純な動きに限られる単発プランや、ビデオジェネレータへの複数の呼び出しを必要とする反復的な改善を採用し、高い計算コストを発生させる。
これらの制限を克服するために,テスト時間サンプリングと検証ループを導入することで,ビデオ生成に先立って,よりダイナミックなコヒーレントな軌跡(物理的に可算かつ命令一貫性のある動作)を用いて,動作計画品質を向上させる,トレーニングフリーのスケッチ検証ベースの計画フレームワークであるSketchVerifyを提案する。
提案手法は,プロンプトと参照画像が与えられた場合,複数の候補動きプランを予測し,視覚言語検証器を用いて,指示と身体的妥当性とのセマンティックアライメントを共同で評価する。
対象を静的な背景に合成することで,高コストかつ反復的な拡散に基づく合成の必要性を回避し,高い性能を達成し,各軌跡を軽量な映像スケッチとして効率よく評価する。
我々は、満足なものが特定されるまで運動計画を反復的に洗練し、最終的な合成のために軌道条件付きジェネレータに渡される。
WorldModelBench と PhyWorldBench の実験により,本手法は競争ベースラインに比べて動作品質,身体的リアリズム,長期的一貫性を著しく向上し,効率が向上することを示した。
我々のアブレーション研究は、トラジェクトリ候補のスケールアップにより、全体的なパフォーマンスが一貫して向上することを示している。
関連論文リスト
- RAGME: Retrieval Augmented Video Generation for Enhanced Motion Realism [73.38167494118746]
生成ビデオにおける動きのリアリズムを改善するための枠組みを提案する。
生成フェーズにおける検索機構の導入を提唱する。
私たちのパイプラインは、どんなテキスト間拡散モデルにも適用できるように設計されています。
論文 参考訳(メタデータ) (2025-04-09T08:14:05Z) - Tracktention: Leveraging Point Tracking to Attend Videos Faster and Better [61.381599921020175]
時間的一貫性は、出力が一貫性があり、アーティファクトがないことを保証するために、ビデオ予測において重要である。
時間的注意や3D畳み込みといった伝統的な手法は、重要な物体の動きに苦しむことがある。
本稿では,ポイントトラックを用いた動き情報を明示的に統合する新しいアーキテクチャコンポーネントであるトラックキート・レイヤを提案する。
論文 参考訳(メタデータ) (2025-03-25T17:58:48Z) - Training-Free Motion-Guided Video Generation with Enhanced Temporal Consistency Using Motion Consistency Loss [35.69606926024434]
本稿では,初期雑音に基づくアプローチと新たな動きの整合性損失を組み合わせた,シンプルで効果的な解を提案する。
次に、生成したビデオに類似した特徴相関パターンを維持するために、動きの整合性損失を設計する。
このアプローチは、トレーニング不要のセットアップの利点を保ちながら、さまざまなモーションコントロールタスク間の時間的一貫性を改善する。
論文 参考訳(メタデータ) (2025-01-13T18:53:08Z) - Motion Flow Matching for Human Motion Synthesis and Editing [75.13665467944314]
本研究では,効率的なサンプリングと効率性を備えた人体運動生成のための新しい生成モデルであるemphMotion Flow Matchingを提案する。
提案手法は, 従来の拡散モデルにおいて, サンプリングの複雑さを1000ステップから10ステップに減らし, テキスト・ツー・モーション・ジェネレーション・ベンチマークやアクション・ツー・モーション・ジェネレーション・ベンチマークで同等の性能を実現する。
論文 参考訳(メタデータ) (2023-12-14T12:57:35Z) - TrackDiffusion: Tracklet-Conditioned Video Generation via Diffusion Models [75.20168902300166]
微粒な軌跡条件の運動制御が可能な新しい映像生成フレームワークであるTrackDiffusionを提案する。
TrackDiffusionの重要なコンポーネントは、複数のオブジェクトのフレーム間の一貫性を明確に保証するインスタンスエンハンサーである。
TrackDiffusionによって生成されたビデオシーケンスは、視覚知覚モデルのトレーニングデータとして使用できる。
論文 参考訳(メタデータ) (2023-12-01T15:24:38Z) - Hierarchical Style-based Networks for Motion Synthesis [150.226137503563]
本研究では,特定の目標地点を達成するために,長距離・多種多様・多様な行動を生成する自己指導手法を提案する。
提案手法は,長距離生成タスクを階層的に分解することで人間の動作をモデル化する。
大規模な骨格データから, 提案手法は長距離, 多様な, もっともらしい動きを合成できることを示す。
論文 参考訳(メタデータ) (2020-08-24T02:11:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。