論文の概要: Can Image-To-Video Models Simulate Pedestrian Dynamics?
- arxiv url: http://arxiv.org/abs/2510.17731v1
- Date: Mon, 20 Oct 2025 16:44:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.534693
- Title: Can Image-To-Video Models Simulate Pedestrian Dynamics?
- Title(参考訳): 画像と映像のモデルが歩行者動態をシミュレートできるか?
- Authors: Aaron Appelle, Jerome P. Lynch,
- Abstract要約: 拡散変圧器(DiT)の変種をベースとした高パフォーマンスな画像対ビデオ(I2V)モデルでは,目覚ましい世界モデリング能力を示した。
混雑した公共の場において,これらのモデルが現実的な歩行者運動パターンを生成できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 1.2676356746752893
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent high-performing image-to-video (I2V) models based on variants of the diffusion transformer (DiT) have displayed remarkable inherent world-modeling capabilities by virtue of training on large scale video datasets. We investigate whether these models can generate realistic pedestrian movement patterns in crowded public scenes. Our framework conditions I2V models on keyframes extracted from pedestrian trajectory benchmarks, then evaluates their trajectory prediction performance using quantitative measures of pedestrian dynamics.
- Abstract(参考訳): 拡散変圧器(DiT)の変種に基づく近年の高性能画像合成(I2V)モデルは、大規模ビデオデータセットのトレーニングにより、顕著な固有な世界モデリング能力を示した。
混雑した公共の場において,これらのモデルが現実的な歩行者運動パターンを生成できるかどうかを検討する。
歩行者軌跡ベンチマークから抽出したキーフレーム上でのI2Vモデルを用いて,歩行者動態の定量的測定による軌道予測性能の評価を行った。
関連論文リスト
- Evaluating Video Models as Simulators of Multi-Person Pedestrian Trajectories [1.2676356746752893]
歩行者動態の暗黙的シミュレータとして,テキスト・トゥ・ビデオ(T2V)と画像・トゥ・ビデオ(I2V)モデルをベンチマークした。
キーコンポーネントは、カメラパラメータを知らない画素空間から2Dの鳥眼視線を再構成する方法である。
論文 参考訳(メタデータ) (2025-10-23T04:06:58Z) - Pre-Trained Video Generative Models as World Simulators [59.546627730477454]
本研究では,事前学習した映像生成モデルを制御可能な世界シミュレータに変換するための動的世界シミュレーション(DWS)を提案する。
条件付き動作と生成した視覚的変化の正確なアライメントを実現するために,軽量で普遍的な動作条件付きモジュールを導入する。
実験により、DWSは拡散モデルと自己回帰変換モデルの両方に汎用的に適用可能であることが示された。
論文 参考訳(メタデータ) (2025-02-10T14:49:09Z) - Predicting 3D representations for Dynamic Scenes [29.630985082164383]
単眼ビデオストリームを用いた動的放射場予測のための新しいフレームワークを提案する。
動的シーンの3次元表現を明示的に生成することで,本手法はさらに一歩前進する。
私たちのアプローチは、幾何学と意味学習の能力を生み出します。
論文 参考訳(メタデータ) (2025-01-28T01:31:15Z) - DrivingGPT: Unifying Driving World Modeling and Planning with Multi-modal Autoregressive Transformers [61.92571851411509]
我々は、インターリーブ画像とアクショントークンに基づくマルチモーダル駆動言語を導入し、共同世界モデリングと計画を学ぶためのDrivingGPTを開発した。
我々のDrivingGPTは、アクション条件付きビデオ生成とエンドツーエンドプランニングの両方において強力なパフォーマンスを示し、大規模なnuPlanとNAVSIMベンチマークにおいて強力なベースラインを達成しています。
論文 参考訳(メタデータ) (2024-12-24T18:59:37Z) - VidMan: Exploiting Implicit Dynamics from Video Diffusion Model for Effective Robot Manipulation [79.00294932026266]
VidManは、安定性を高め、データ利用効率を向上させるために、2段階のトレーニングメカニズムを使用する新しいフレームワークである。
我々のフレームワークは、CALVINベンチマークで最先端のベースラインモデルGR-1を上回り、11.7%の相対的な改善を実現し、OXEの小規模データセットで9%以上の精度向上を示す。
論文 参考訳(メタデータ) (2024-11-14T03:13:26Z) - AVID: Adapting Video Diffusion Models to World Models [10.757223474031248]
我々は,事前学習されたモデルのパラメータにアクセスすることなく,事前学習された映像拡散モデルを行動条件付き世界モデルに適用することを提案する。
AVIDは学習マスクを使用して、事前訓練されたモデルの中間出力を変更し、正確なアクション条件のビデオを生成する。
AVIDをゲームや実世界のロボットデータ上で評価し,既存の拡散モデル適応法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-01T13:48:31Z) - Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution [82.38677987249348]
本稿では,従来の視覚処理における既定分解能アプローチを再定義するQwen2-VLシリーズを提案する。
Qwen2-VLでは、さまざまな解像度の画像を異なる数のビジュアルトークンに動的に処理できるNaive Dynamic Resolutionメカニズムが導入されている。
また、Multimodal Rotary Position Embedding (M-RoPE)を統合し、テキスト、画像、ビデオ間で位置情報の効果的な融合を容易にする。
論文 参考訳(メタデータ) (2024-09-18T17:59:32Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。