論文の概要: Inferring Dynamic Physical Properties from Video Foundation Models
- arxiv url: http://arxiv.org/abs/2510.02311v1
- Date: Thu, 02 Oct 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-03 16:59:21.292015
- Title: Inferring Dynamic Physical Properties from Video Foundation Models
- Title(参考訳): ビデオファンデーションモデルから動的物性を推定する
- Authors: Guanqi Zhan, Xianzheng Ma, Weidi Xie, Andrew Zisserman,
- Abstract要約: ビデオから動的物理特性を予測するタスクについて検討する。
時間的情報を必要とする物理的特性として,バウンディング物体の弾性,流動液体の粘度,表面を滑り落ちる物体の動的摩擦について考察する。
- 参考スコア(独自算出の注目度): 94.35979242947873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study the task of predicting dynamic physical properties from videos. More specifically, we consider physical properties that require temporal information to be inferred: elasticity of a bouncing object, viscosity of a flowing liquid, and dynamic friction of an object sliding on a surface. To this end, we make the following contributions: (i) We collect a new video dataset for each physical property, consisting of synthetic training and testing splits, as well as a real split for real world evaluation. (ii) We explore three ways to infer the physical property from videos: (a) an oracle method where we supply the visual cues that intrinsically reflect the property using classical computer vision techniques; (b) a simple read out mechanism using a visual prompt and trainable prompt vector for cross-attention on pre-trained video generative and self-supervised models; and (c) prompt strategies for Multi-modal Large Language Models (MLLMs). (iii) We show that video foundation models trained in a generative or self-supervised manner achieve a similar performance, though behind that of the oracle, and MLLMs are currently inferior to the other models, though their performance can be improved through suitable prompting.
- Abstract(参考訳): ビデオから動的物理特性を予測するタスクについて検討する。
具体的には、バウンディング物体の弾性、流動液体の粘性、表面を滑り落ちる物体の動的摩擦など、時間的情報を必要とする物理的特性について考察する。
この目的のために、以下の貢献をしている。
i) 実世界評価のために, 合成トレーニングとテスト分割と, 実世界評価のための真の分割からなる, それぞれの物理的特性に関する新しいビデオデータセットを収集する。
(ii)ビデオから物理的特性を推測する3つの方法を探る。
(a)古典的コンピュータビジョン技術を用いて本質的に特性を反映する視覚的手がかりを供給する託宣方法
b) 事前学習された映像生成及び自己監督モデルにおける相互注意のための視覚的プロンプトと訓練可能なプロンプトベクターを用いた簡単な読み出し機構
(c)Multi-modal Large Language Models(MLLM)の迅速な戦略。
3) ビデオ基礎モデルは, 託宣の裏にあるものの, 生成的あるいは自己指導的に訓練され, MLLMが他のモデルよりも劣っているものの, 適切なプロンプトによってその性能を向上できることが示される。
関連論文リスト
- Think Before You Diffuse: LLMs-Guided Physics-Aware Video Generation [55.046699347579455]
DiffPhyは、物理的に正確でリアルなビデオ生成を可能にする汎用的なフレームワークである。
本手法は大規模言語モデル(LLM)を活用し,テキストプロンプトから包括的物理的文脈を明示的に推論する。
また、多様な植物行動やイベントを含む高品質な物理ビデオデータセットを構築し、効果的な微調整を容易にする。
論文 参考訳(メタデータ) (2025-05-27T18:26:43Z) - Physics Context Builders: A Modular Framework for Physical Reasoning in Vision-Language Models [9.474337395173388]
視覚言語モデル(VLM)における物理推論の課題
ファインチューニングは大きなモデルでは高価であり、すべてのタスクで繰り返し実行できない。
我々は,物理シーンの詳細な記述を生成するために,特殊なVLMを微調整した新しいモジュラーフレームワークであるPhysical Context Builders (PCBs)を紹介した。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Efficient Physics Simulation for 3D Scenes via MLLM-Guided Gaussian Splatting [32.846428862045634]
Sim Anythingは、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える物理ベースのアプローチである。
人間の視覚的推論に触発されて,MLLMに基づく物理特性知覚を提案する。
また、物理幾何学的適応サンプリングを用いて粒子をサンプリングして、オープンワールドシーンでオブジェクトをシミュレートする。
論文 参考訳(メタデータ) (2024-11-19T12:52:21Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - OCK: Unsupervised Dynamic Video Prediction with Object-Centric Kinematics [22.119612406160073]
我々は,オブジェクト中心キネマティクスとオブジェクトスロットを利用した動的ビデオ予測モデルOCKを提案する。
本稿では,対象運動を明示する新しいコンポーネントであるObject Kinematicsを紹介する。
複雑なオブジェクト属性と動きを持つ複雑なシーンにおいて,本モデルは優れた性能を示す。
論文 参考訳(メタデータ) (2024-04-29T04:47:23Z) - EDO-Net: Learning Elastic Properties of Deformable Objects from Graph Dynamics [24.33743287768859]
本研究では、未知の物理特性に一般化する変形可能な物体のグラフ力学を学習する問題について検討する。
EDO-Netは,弾性特性の異なる様々なサンプルに対して学習したグラフ力学のモデルである。
論文 参考訳(メタデータ) (2022-09-19T13:20:19Z) - Neural Implicit Representations for Physical Parameter Inference from a Single Video [49.766574469284485]
本稿では,外見モデルのためのニューラル暗黙表現と,物理現象をモデル化するためのニューラル常微分方程式(ODE)を組み合わせることを提案する。
提案モデルでは,大規模なトレーニングデータセットを必要とする既存のアプローチとは対照的に,単一のビデオから物理的パラメータを識別することが可能になる。
ニューラル暗示表現を使用することで、高解像度ビデオの処理とフォトリアリスティック画像の合成が可能になる。
論文 参考訳(メタデータ) (2022-04-29T11:55:35Z) - Which priors matter? Benchmarking models for learning latent dynamics [70.88999063639146]
古典力学の先行概念を機械学習モデルに統合する手法が提案されている。
これらのモデルの現在の機能について、精査する。
連続的および時間的可逆的ダイナミクスの使用は、すべてのクラスのモデルに恩恵をもたらす。
論文 参考訳(メタデータ) (2021-11-09T23:48:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。