論文の概要: The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics
- arxiv url: http://arxiv.org/abs/2603.14375v1
- Date: Sun, 15 Mar 2026 13:29:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.780996
- Title: The Pulse of Motion: Measuring Physical Frame Rate from Visual Dynamics
- Title(参考訳): 動きのパルス:視覚力学から物理フレーム速度を測定する
- Authors: Xiangbo Gao, Mingyang Wu, Siyuan Yang, Jiongze Yu, Pardis Taghavi, Fangzhou Lin, Zhengzhong Tu,
- Abstract要約: 入力ビデオの視覚力学から秒間物理フレームを直接復元する予測器であるビジュアルクロノメーターを提案する。
我々の評価では、最先端のビデオジェネレータが深刻なPhyFPSのミスアライメントと時間的不安定に悩まされているという厳しい現実が明らかになっている。
PhyFPS補正を適用することで、AI生成ビデオの人間の知覚する自然さが大幅に向上する。
- 参考スコア(独自算出の注目度): 18.3026562815791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While recent generative video models have achieved remarkable visual realism and are being explored as world models, true physical simulation requires mastering both space and time. Current models can produce visually smooth kinematics, yet they lack a reliable internal motion pulse to ground these motions in a consistent, real-world time scale. This temporal ambiguity stems from the common practice of indiscriminately training on videos with vastly different real-world speeds, forcing them into standardized frame rates. This leads to what we term chronometric hallucination: generated sequences exhibit ambiguous, unstable, and uncontrollable physical motion speeds. To address this, we propose Visual Chronometer, a predictor that recovers the Physical Frames Per Second (PhyFPS) directly from the visual dynamics of an input video. Trained via controlled temporal resampling, our method estimates the true temporal scale implied by the motion itself, bypassing unreliable metadata. To systematically quantify this issue, we establish two benchmarks, PhyFPS-Bench-Real and PhyFPS-Bench-Gen. Our evaluations reveal a harsh reality: state-of-the-art video generators suffer from severe PhyFPS misalignment and temporal instability. Finally, we demonstrate that applying PhyFPS corrections significantly improves the human-perceived naturalness of AI-generated videos. Our project page is https://xiangbogaobarry.github.io/Visual_Chronometer/.
- Abstract(参考訳): 最近の生成ビデオモデルは目覚ましいビジュアルリアリズムを達成し、世界モデルとして探求されているが、真の物理シミュレーションは空間と時間の両方をマスターする必要がある。
現在のモデルは視覚的に滑らかなキネマティックスを生成することができるが、これらの動きを一貫した実世界の時間スケールでグラウンドする信頼性のある内部運動パルスは欠如している。
この時間的曖昧さは、異なる現実世界の速度で動画を無差別に訓練する一般的な習慣に起因し、それらを標準化されたフレームレートに強制する。
これはクロノメトリ幻覚(chronometric hallucination)と呼ばれるもので、生成シーケンスは曖昧で不安定で、制御不能な物理運動速度を示す。
そこで我々は,入力ビデオの視覚力学から直接物理フレーム/秒(PhyFPS)を復元する予測器であるビジュアルクロノメーターを提案する。
制御された時間的リサンプリングによってトレーニングされた本手法は,動作自体が入力する真の時間的スケールを推定し,信頼性の低いメタデータをバイパスする。
この問題を体系的に定量化するために、PhyFPS-Bench-RealとPhyFPS-Bench-Genという2つのベンチマークを構築した。
我々の評価では、最先端のビデオジェネレータが深刻なPhyFPSのミスアライメントと時間的不安定に悩まされているという厳しい現実が明らかになっている。
最後に、PhyFPS補正を適用することで、AI生成ビデオの人間の知覚自然性を大幅に改善することを示す。
私たちのプロジェクトページはhttps://xiangbogaobarry.github.io/Visual_Chronometer/です。
関連論文リスト
- Physical Simulator In-the-Loop Video Generation [96.87054314612142]
Physical Simulator In-the-loop Video Generation (PSIVG)は、物理シミュレータをビデオ拡散プロセスに統合する新しいフレームワークである。
PSIVGは、視覚的品質と多様性を保ちながら、現実世界の物理に忠実なビデオを制作する。
論文 参考訳(メタデータ) (2026-03-06T15:48:25Z) - What Happens Next? Anticipating Future Motion by Generating Point Trajectories [76.16266402727643]
一つの画像から動きを予測し、世界の物体がどのように動くかを予測する問題を考察する。
我々はこのタスクを,現代のビデオジェネレータのアーキテクチャを忠実に追従するモデルを用いて,高密度トラジェクトリグリッドの条件生成として定式化する。
このアプローチはシーン全体のダイナミクスと不確実性を捉え、以前の回帰器やジェネレータよりも正確で多様な予測をもたらす。
論文 参考訳(メタデータ) (2025-09-25T21:03:56Z) - VLIPP: Towards Physically Plausible Video Generation with Vision and Language Informed Physical Prior [88.51778468222766]
近年,映像拡散モデル (VDM) が大幅に進歩し,映像のリアル化が進んでいる。
VDMは物理の理解の欠如のため、物理的にもっともらしいビデオを作ることができないことが多い。
本稿では,物理を視覚と言語に明示的に組み込んだ新しい2段階画像・映像生成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-30T09:03:09Z) - VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation [66.58048825989239]
VideoPhy-2は、生成されたビデオの物理的常識を評価するアクション中心のデータセットである。
我々は、生成したビデオのセマンティック・アテンデンス、物理コモンセンス、および物理ルールのグラウンド化を評価する人間の評価を行う。
結果より,最高のモデルでも22%のジョイントパフォーマンスを達成できたことが示唆された。
論文 参考訳(メタデータ) (2025-03-09T22:49:12Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - PhysCap: Physically Plausible Monocular 3D Motion Capture in Real Time [89.68248627276955]
シングルカラーカメラからのマーカレス3Dモーションキャプチャは、大きな進歩を遂げた。
しかし、これは非常に困難な問題であり、深刻な問題である。
我々はPhysCapについて紹介する。PhysCapは物理的に可塑性でリアルタイムでマーカーのない人間の3Dモーションキャプチャのための最初のアルゴリズムである。
論文 参考訳(メタデータ) (2020-08-20T10:46:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。