論文の概要: From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation
- arxiv url: http://arxiv.org/abs/2510.00806v1
- Date: Wed, 01 Oct 2025 12:11:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:20.545046
- Title: From Seeing to Predicting: A Vision-Language Framework for Trajectory Forecasting and Controlled Video Generation
- Title(参考訳): 視線から予測へ:軌跡予測と制御ビデオ生成のための視覚言語フレームワーク
- Authors: Fan Yang, Zhiyang Chen, Yousong Zhu, Xin Li, Jinqiao Wang,
- Abstract要約: TrajVLM-Genは物理を意識した画像・ビデオ生成のためのフレームワークである。
実世界の物理との整合性を維持するために,視覚言語モデルを用いて粗粒度運動軌跡の予測を行う。
リアルな動きパターンを持つ映像追跡データに基づく軌道予測データセットを構築した。
- 参考スコア(独自算出の注目度): 33.41681612310823
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current video generation models produce physically inconsistent motion that violates real-world dynamics. We propose TrajVLM-Gen, a two-stage framework for physics-aware image-to-video generation. First, we employ a Vision Language Model to predict coarse-grained motion trajectories that maintain consistency with real-world physics. Second, these trajectories guide video generation through attention-based mechanisms for fine-grained motion refinement. We build a trajectory prediction dataset based on video tracking data with realistic motion patterns. Experiments on UCF-101 and MSR-VTT demonstrate that TrajVLM-Gen outperforms existing methods, achieving competitive FVD scores of 545 on UCF-101 and 539 on MSR-VTT.
- Abstract(参考訳): 現在のビデオ生成モデルは、現実世界のダイナミクスに反する物理的に一貫性のない動きを生み出す。
物理対応画像・ビデオ生成のための2段階フレームワークであるTrajVLM-Genを提案する。
まず、実世界の物理との整合性を維持するための粗粒度運動軌跡の予測に視覚言語モデルを用いる。
第二に、これらの軌跡は、微粒なモーションリファインメントのための注意に基づくメカニズムを通して映像生成を誘導する。
リアルな動きパターンを持つ映像追跡データに基づく軌道予測データセットを構築した。
UCF-101とMSR-VTTの実験では、TrajVLM-Genは既存の手法よりも優れており、UCF-101では545、MSR-VTTでは539のFVDスコアが達成されている。
関連論文リスト
- Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - Programmatic Video Prediction Using Large Language Models [21.11346129620144]
ProgGenは、ニューロシンボリックで人間の解釈可能な状態のセットを使用して、ビデオのダイナミックスを表現する。
提案手法は,2つの挑戦環境における映像フレーム予測の課題において,競合する手法よりも優れていた。
論文 参考訳(メタデータ) (2025-05-20T22:17:47Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoJAM: Joint Appearance-Motion Representations for Enhanced Motion Generation in Video Models [71.9811050853964]
VideoJAMは、ビデオジェネレータの前に効果的な動きを注入する新しいフレームワークである。
VideoJAMは動きコヒーレンスにおける最先端のパフォーマンスを達成する。
これらの知見は、外観と動きが相補的であり、効果的に統合されると、映像生成の視覚的品質とコヒーレンスの両方を高めることを強調した。
論文 参考訳(メタデータ) (2025-02-04T17:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。