論文の概要: Evaluating Video Models as Simulators of Multi-Person Pedestrian Trajectories
- arxiv url: http://arxiv.org/abs/2510.20182v1
- Date: Thu, 23 Oct 2025 04:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:17.237881
- Title: Evaluating Video Models as Simulators of Multi-Person Pedestrian Trajectories
- Title(参考訳): 多人数歩行者軌道シミュレータとしての映像モデルの評価
- Authors: Aaron Appelle, Jerome P. Lynch,
- Abstract要約: 歩行者動態の暗黙的シミュレータとして,テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)モデルをベンチマークした。
キーコンポーネントは、カメラパラメータを知らない画素空間から2Dの鳥眼視線を再構成する方法である。
- 参考スコア(独自算出の注目度): 1.2676356746752893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale video generation models have demonstrated high visual realism in diverse contexts, spurring interest in their potential as general-purpose world simulators. Existing benchmarks focus on individual subjects rather than scenes with multiple interacting people. However, the plausibility of multi-agent dynamics in generated videos remains unverified. We propose a rigorous evaluation protocol to benchmark text-to-video (T2V) and image-to-video (I2V) models as implicit simulators of pedestrian dynamics. For I2V, we leverage start frames from established datasets to enable comparison with a ground truth video dataset. For T2V, we develop a prompt suite to explore diverse pedestrian densities and interactions. A key component is a method to reconstruct 2D bird's-eye view trajectories from pixel-space without known camera parameters. Our analysis reveals that leading models have learned surprisingly effective priors for plausible multi-agent behavior. However, failure modes like merging and disappearing people highlight areas for future improvement.
- Abstract(参考訳): 大規模ビデオ生成モデルは様々な文脈において高い視覚的リアリズムを示し、汎用世界シミュレーターとしての可能性への関心を喚起している。
既存のベンチマークでは、複数の対話する人々のいるシーンではなく、個々の主題に焦点を当てている。
しかし、生成ビデオにおけるマルチエージェントダイナミックスの妥当性は検証されていない。
本稿では,歩行者動態の暗黙的シミュレータとして,テキスト・ツー・ビデオ(T2V)と画像・ツー・ビデオ(I2V)モデルをベンチマークするための厳密な評価プロトコルを提案する。
I2Vでは、確立したデータセットからの開始フレームを活用して、地上の真理ビデオデータセットとの比較を可能にします。
T2Vでは,多様な歩行者の密度と相互作用を探索するプロンプトスイートを開発した。
キーコンポーネントは、カメラパラメータを知らない画素空間から2Dの鳥眼視線を再構成する方法である。
分析の結果,先行モデルでは,有意なマルチエージェント動作に対して,驚くほど効果的な先行学習が得られたことが判明した。
しかしながら、マージや消滅といった障害モードは、将来の改善の領域を強調します。
関連論文リスト
- Can Image-To-Video Models Simulate Pedestrian Dynamics? [1.2676356746752893]
拡散変圧器(DiT)の変種をベースとした高パフォーマンスな画像対ビデオ(I2V)モデルでは,目覚ましい世界モデリング能力を示した。
混雑した公共の場において,これらのモデルが現実的な歩行者運動パターンを生成できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-10-20T16:44:40Z) - AdaViewPlanner: Adapting Video Diffusion Models for Viewpoint Planning in 4D Scenes [63.055387623861094]
最近のテキスト・トゥ・ビデオ(T2V)モデルは、実世界の幾何学と物理法則の視覚シミュレーションにおいて強力な能力を示している。
本稿では,事前学習したT2Vモデルを用いて視点予測を行うための2段階のパラダイムを提案する。
論文 参考訳(メタデータ) (2025-10-12T15:55:44Z) - DynamicEval: Rethinking Evaluation for Dynamic Text-to-Video Synthesis [17.750053029702222]
既存のテキスト・トゥ・ビデオ(T2V)評価ベンチマークであるVBenchやEvalCrafterには2つの制限がある。
ダイナミックカメラの動きを強調するプロンプトを体系的にキュレートしたベンチマークであるDynamicEvalを紹介する。
背景環境の整合性を示すために,Vbench運動の滑らか度測定値に基づく解釈可能な誤差マップを得る。
提案手法は,映像レベルとモデルレベルの両方において,人間の嗜好と強い相関関係を示す。
論文 参考訳(メタデータ) (2025-10-08T18:41:04Z) - DreamVVT: Mastering Realistic Video Virtual Try-On in the Wild via a Stage-Wise Diffusion Transformer Framework [26.661935208583756]
VVT(Virtual try-on)技術は、eコマース広告やエンターテイメントに将来性があるとして、学術的な関心を集めている。
本研究では,現実のシナリオにおける適応性を高めるために,多種多様な人間中心データを活用することが可能なDreamVVTを提案する。
第1段階では、入力ビデオから代表フレームをサンプリングし、視覚言語モデル(VLM)と統合された多フレーム試行モデルを用いて、高忠実で意味論的に整合した試行画像を合成する。
第2段階では、微粒な動きと外観記述とともに骨格図が作成される。
論文 参考訳(メタデータ) (2025-08-04T18:27:55Z) - VideoMolmo: Spatio-Temporal Grounding Meets Pointing [66.19964563104385]
VideoMolmoは、ビデオシーケンスのきめ細かいポインティングに適したモデルだ。
新しい仮面融合はSAM2を双方向の点伝播に用いている。
The generalization of VideoMolmo, we introduced VPoMolS-temporal, a challenge out-of-distribution benchmark across two real-world scenarios。
論文 参考訳(メタデータ) (2025-06-05T17:59:29Z) - Direct Motion Models for Assessing Generated Videos [38.04485796547767]
ビデオ生成ビデオモデルの現在の制限は、可視的に見えるフレームを生成するが、動きが貧弱であることである。
ここでは、妥当な物体の相互作用と動きをよりよく測定する指標を開発することで、FVDを超えていく。
画素再構成や動作認識の代わりに点線を用いると、合成データの時間歪みに顕著に敏感な測定結果が得られることを示す。
論文 参考訳(メタデータ) (2025-04-30T22:34:52Z) - Can Generative Video Models Help Pose Estimation? [42.10672365565019]
ほとんどまたは全く重複しない画像から適切なポーズ推定を行うことは、コンピュータビジョンにおけるオープンな課題である。
多様なシーンから空間的関係を推定する人間の能力に触発され,新たなアプローチであるInterPoseを提案する。
本稿では,2つの入力画像間の中間フレームを幻覚化し,高密度な視覚遷移を効果的に生成するビデオモデルを提案する。
論文 参考訳(メタデータ) (2024-12-20T18:58:24Z) - Improving Dynamic Object Interactions in Text-to-Video Generation with AI Feedback [130.090296560882]
テキスト・ビデオ・モデルにおけるオブジェクトの動的性を高めるためのフィードバックの利用について検討する。
本手法は,動的インタラクションにおける映像品質の大幅な向上を駆動するバイナリAIフィードバックを用いて,多様な報酬を効果的に最適化できることを示す。
論文 参考訳(メタデータ) (2024-12-03T17:44:23Z) - InTraGen: Trajectory-controlled Video Generation for Object Interactions [100.79494904451246]
InTraGenは、オブジェクトインタラクションシナリオのトラジェクトリベースの生成を改善するパイプラインである。
その結果,視覚的忠実度と定量的性能の両面での改善が示された。
論文 参考訳(メタデータ) (2024-11-25T14:27:50Z) - Towards Fast Adaptation of Pretrained Contrastive Models for
Multi-channel Video-Language Retrieval [70.30052749168013]
マルチチャンネルビデオ言語検索は、異なるチャンネルからの情報を理解するためにモデルを必要とする。
対照的なマルチモーダルモデルは、画像やビデオやテキストのエンティティの整合に非常に効果的であることが示されている。
これら2つの行を、限られたデータとリソースを持つマルチチャンネルビデオ言語検索に迅速に適応する方法は、明らかではない。
論文 参考訳(メタデータ) (2022-06-05T01:43:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。