論文の概要: Physics from Video: Identifiability of Time-Invariant Second-Order ODEs under Minimal Trajectory Conditions
- arxiv url: http://arxiv.org/abs/2606.00115v1
- Date: Wed, 27 May 2026 13:22:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:27.97154
- Title: Physics from Video: Identifiability of Time-Invariant Second-Order ODEs under Minimal Trajectory Conditions
- Title(参考訳): ビデオからの物理:最小軌道条件下での時間不変2次ODEの同定可能性
- Authors: Yuanyuan Wang, Wenjie Wang, Kun Zhang, Mingming Gong,
- Abstract要約: ビジュアルリアリズムと物理的な理解のギャップを埋めることは、ビデオベースの世界モデルにとって重要な課題である。
原画素からの連続時間物理法則の構造識別可能性について検討した。
レベルセットの傾斜被覆条件は、学習された潜伏空間が真の物理的状態に局所的に親和的であることを証明する。
- 参考スコア(独自算出の注目度): 60.2784641643737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Bridging the gap between visual realism and physical understanding is a core challenge for video-based world models. We study the structural identifiability of continuous-time physical laws from raw pixels, focusing on whether an encoder-only pipeline can uniquely recover the parameters of second-order linear ODEs. We prove that a level-set slope-coverage condition ensures the learned latent space is locally affine to the true physical state, enabling exact parameter recovery. Our theory provides the first characterization of minimal data requirements across damping regimes, establishing that underdamped systems are identifiable from a single video clip, whereas other regimes require three diverse trajectories. We further introduce a variance-floor regularizer to stabilize the decoder-free objective and prevent latent collapse. Validated on synthetic and real-world data, our approach demonstrates that interpretable physical constants can be reliably estimated from video without the need for compute-intensive pixel reconstruction, ensuring both physical correctness and transparency. Code is available at https://github.com/wenjiewang3/PhysicsFromVideo.
- Abstract(参考訳): ビジュアルリアリズムと物理的な理解のギャップを埋めることは、ビデオベースの世界モデルにとって重要な課題である。
本研究では,エンコーダのみのパイプラインが2階線形ODEのパラメータを一意に復元できるかどうかに着目し,実画素からの連続時間物理法則の構造的識別可能性について検討する。
レベルセットの傾斜被覆条件により、学習した潜伏空間が真の物理的状態に局所的に親和され、正確なパラメータ回復が可能であることを証明した。
我々の理論は、減衰レジームにまたがる最小限のデータ要求を初めて評価し、アンダーダムドシステムは単一のビデオクリップから識別可能であることを証明し、他のレジームは3つの多様なトラジェクトリを必要とする。
さらに分散フロア正規化器を導入し,デコーダフリーの目標を安定させ,遅延崩壊を防止する。
提案手法は, 合成および実世界のデータに基づいて, 計算集約的な画素再構成を必要とせずに, 解釈可能な物理定数をビデオから確実に推定できることを示し, 物理的正当性と透明性の両立を保証した。
コードはhttps://github.com/wenjiewang3/PhysicsFromVideoで公開されている。
関連論文リスト
- Equation-Free Digital Twins for Nonlinear Structural Dynamics [2.1038295489048977]
本稿では、Koopman演算子理論、Hankel-matrix埋め込み、動的モード分解に基づくランク最適化デジタルツインフレームワークを提案する。
この枠組みはNREL 5MWのスパルブイ浮揚風力タービンで検証されている。
転がり水平仮想センシング戦略は, 臨界ホットスポットにおける高忠実度再構成を実現する。
論文 参考訳(メタデータ) (2026-05-01T11:12:12Z) - CtrlVDiff: Controllable Video Generation via Unified Multimodal Video Diffusion [62.04833878126661]
統合拡散フレームワークにおける映像理解と制御可能な映像生成という2つの課題に対処する。
CtrlVDiffは、Hybrid Modality Control Strategy(HMCS)で訓練された統合拡散モデルであり、深度、正規度、セグメンテーション、エッジ、グラフィックベースの内在性(アルベド、粗さ、金属)から特徴を導出し、融合する。
理解と生成のベンチマーク全体にわたって、CtrlVDiffは優れた制御性と忠実さを提供し、レイヤワイズな編集(リライティング、材料調整、オブジェクト挿入)と最先端のベースラインを越えながら、いくつかのモダリティが利用できない場合の堅牢性を維持している。
論文 参考訳(メタデータ) (2025-11-26T07:27:11Z) - Reduced Order Modeling with Shallow Recurrent Decoder Networks [5.686433280542813]
SHRED-ROMは、数値的に不安定な逆近似を符号化する堅牢な復号のみの戦略である。
SHRED-ROMは、固定センサや移動センサの限られた値から、新しいパラメータ値の状態を正確に再構成する。
論文 参考訳(メタデータ) (2025-02-15T23:41:31Z) - Path-minimizing Latent ODEs for improved extrapolation and inference [0.0]
潜在ODEモデルは動的システムの柔軟な記述を提供するが、外挿と複雑な非線形力学の予測に苦労することがある。
本稿では、時間に依存しない潜在表現を奨励することで、この二分法を利用する。
遅延空間における一般的な変分ペナルティを各システムのパス長の$ell$ペナルティに置き換えることで、モデルは異なる構成のシステムと容易に区別できるデータ表現を学ぶ。
これにより、GRU、RNN、LSTM/デコーダによるベースラインODEモデルと比較して、より高速なトレーニング、より小さなモデル、より正確で長時間の外挿が可能となる。
論文 参考訳(メタデータ) (2024-10-11T15:50:01Z) - Learning Physics From Video: Unsupervised Physical Parameter Estimation for Continuous Dynamical Systems [49.11170948406405]
本研究では,単一のビデオから既知の連続制御方程式の物理パラメータを推定する教師なし手法を提案する。
Delfys75は5種類の動的システムのための75本のビデオからなる実世界のデータセットだ。
論文 参考訳(メタデータ) (2024-10-02T09:44:54Z) - Modelling Latent Dynamics of StyleGAN using Neural ODEs [52.03496093312985]
我々は、GANから独立に反転した潜在符号の軌跡を学習する。
学習した連続軌道により、無限のフレームと一貫したビデオ操作を行うことができる。
提案手法は最先端の性能を実現するが,計算量が少なくなる。
論文 参考訳(メタデータ) (2022-08-23T21:20:38Z) - Physics Informed Neural Fields for Smoke Reconstruction with Sparse Data [73.8970871148949]
まばらなマルチビューRGBビデオから流体を高忠実に再現することは、まだまだ難しい課題だ。
既存のソリューションは、障害物や照明に関する知識を前提とするか、障害物や複雑な照明のない単純な流体シーンのみに焦点を当てる。
本稿では, 制御物理(Navier-Stokes方程式)をエンドツーエンドの最適化で活用することにより, 動的流体を再構築する最初の方法を提案する。
論文 参考訳(メタデータ) (2022-06-14T03:38:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。