論文の概要: Interpreting Physics in Video World Models
- arxiv url: http://arxiv.org/abs/2602.07050v1
- Date: Wed, 04 Feb 2026 15:19:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:24.40106
- Title: Interpreting Physics in Video World Models
- Title(参考訳): ビデオワールドモデルにおける物理の解釈
- Authors: Sonia Joseph, Quentin Garrido, Randall Balestriero, Matthew Kowal, Thomas Fel, Shahab Bakhtiari, Blake Richards, Mike Rabbat,
- Abstract要約: 物理推論における長年の疑問は、ビデオベースのモデルが物理変数の分解表現に依存する必要があるかどうかである。
本稿では,大規模ビデオエンコーダ内の物理表現を調べるための最初の解釈可能性研究について述べる。
現代のビデオモデルは、古典的な物理エンジンのような物理変数の分解表現を使用しない。
- 参考スコア(独自算出の注目度): 28.27323417999283
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A long-standing question in physical reasoning is whether video-based models need to rely on factorized representations of physical variables in order to make physically accurate predictions, or whether they can implicitly represent such variables in a task-specific, distributed manner. While modern video world models achieve strong performance on intuitive physics benchmarks, it remains unclear which of these representational regimes they implement internally. Here, we present the first interpretability study to directly examine physical representations inside large-scale video encoders. Using layerwise probing, subspace geometry, patch-level decoding, and targeted attention ablations, we characterize where physical information becomes accessible and how it is organized within encoder-based video transformers. Across architectures, we identify a sharp intermediate-depth transition -- which we call the Physics Emergence Zone -- at which physical variables become accessible. Physics-related representations peak shortly after this transition and degrade toward the output layers. Decomposing motion into explicit variables, we find that scalar quantities such as speed and acceleration are available from early layers onwards, whereas motion direction becomes accessible only at the Physics Emergence Zone. Notably, we find that direction is encoded through a high-dimensional population structure with circular geometry, requiring coordinated multi-feature intervention to control. These findings suggest that modern video models do not use factorized representations of physical variables like a classical physics engine. Instead, they use a distributed representation that is nonetheless sufficient for making physical predictions.
- Abstract(参考訳): 物理推論における長年の疑問は、物理変数を物理的に正確に予測するために、ビデオベースのモデルが物理変数の因子化表現に依存する必要があるか、タスク固有の分散的な方法で、そのような変数を暗黙的に表現できるかどうかである。
現代のビデオワールドモデルは直感的な物理ベンチマークで強い性能を発揮するが、これらの表現体系のどれが内部で実装されているかは定かではない。
本稿では,大規模ビデオエンコーダ内の物理表現を直接調べる最初の解釈可能性研究について述べる。
レイヤワイドな探索,部分空間幾何学,パッチレベルの復号化,対象とする注意点の短縮を用いて,物理的情報がどこからアクセス可能になったか,エンコーダベースのビデオトランスフォーマー内でどのように整理されるのかを特徴付ける。
アーキテクチャ全体にわたって、物理変数がアクセス可能な、シャープな中間深度遷移(物理エネルジェンスゾーンと呼ばれる)を特定します。
物理関連表現はこの遷移の直後にピークに達し、出力層に向かって分解する。
運動を明示変数に分解すると、初期層から速度や加速度などのスカラー量が得られるのに対し、運動方向は物理エネルジェンスゾーンでのみアクセス可能であることが分かる。
特に、方向は円形状を持つ高次元の集団構造を通して符号化されており、制御には協調的な多機能介入が必要である。
これらの結果は、現代のビデオモデルは、古典的な物理エンジンのような物理変数の分解表現を使用しないことを示している。
代わりに、物理的な予測を行うのに十分な分散表現を使用する。
関連論文リスト
- PhysMaster: Mastering Physical Representation for Video Generation via Reinforcement Learning [49.88366485306749]
現代のビデオ生成モデルは、視覚的にリアルなビデオを生成することができるが、物理法則に従わないことが多い。
本稿では,物理認識力を高めるため,映像生成モデルを導くための表現として,物理知識を捉えたPhysMasterを提案する。
論文 参考訳(メタデータ) (2025-10-15T17:59:59Z) - LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - Physics-Grounded Motion Forecasting via Equation Discovery for Trajectory-Guided Image-to-Video Generation [54.42523027597904]
物理グラウンド映像予測のためのシンボル回帰と軌跡誘導映像(I2V)モデルを統合する新しいフレームワークを提案する。
提案手法は,入力ビデオから運動軌跡を抽出し,検索に基づく事前学習機構を用いて記号回帰を向上し,運動方程式を発見し,物理的に正確な将来の軌跡を予測する。
論文 参考訳(メタデータ) (2025-07-09T13:28:42Z) - Think Before You Diffuse: Infusing Physical Rules into Video Diffusion [55.046699347579455]
実世界の動き、相互作用、ダイナミクスの複雑さは、データから物理を学ぶ際に大きな困難をもたらす。
DiffPhyは、トレーニング済みの動画拡散モデルを微調整することで、物理的に正確でリアルな映像生成を可能にする汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Optimal-state Dynamics Estimation for Physics-based Human Motion Capture from Videos [6.093379844890164]
オンライン環境での運動学観測に物理モデルを選択的に組み込む新しい手法を提案する。
リカレントニューラルネットワークを導入し、キネマティックス入力とシミュレートされた動作を熱心にバランスするカルマンフィルタを実現する。
提案手法は,物理に基づく人間のポーズ推定作業に優れ,予測力学の物理的妥当性を示す。
論文 参考訳(メタデータ) (2024-10-10T10:24:59Z) - Physics-enhanced Gaussian Process Variational Autoencoder [21.222154875601984]
変分オートエンコーダは、高次元の入出力データに基づいて低次元の潜在空間を学習することができる。
そこで本研究では,物理学的に拡張された変分オートエンコーダを提案し,物理的に拡張されたガウス過程を潜時力学に先立って配置する。
提案手法の利点は振動粒子を用いたシミュレーションで強調される。
論文 参考訳(メタデータ) (2023-05-15T20:41:39Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。