論文の概要: Opinion: Learning Intuitive Physics May Require More than Visual Data
- arxiv url: http://arxiv.org/abs/2512.06232v1
- Date: Sat, 06 Dec 2025 00:49:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-09 22:03:54.251547
- Title: Opinion: Learning Intuitive Physics May Require More than Visual Data
- Title(参考訳): 直観的な物理を学ぶにはビジュアルデータ以上のものが必要になるかもしれない
- Authors: Ellen Su, Solim Legris, Todd M. Gureckis, Mengye Ren,
- Abstract要約: 最先端のディープラーニングモデルは、直感的な物理ベンチマークでは人間レベルのパフォーマンスに欠けています。
我々は,SAYCam上でビデオ共同埋め込み予測アーキテクチャ(V-JEPA)モデルを事前訓練する。
このデータセットのトレーニングは、SOTAモデルのトレーニングに使用されるデータボリュームの0.01%を占めていますが、IntPhys2ベンチマークでは大きなパフォーマンス改善には至っていません。
- 参考スコア(独自算出の注目度): 9.35132037029056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans expertly navigate the world by building rich internal models founded on an intuitive understanding of physics. Meanwhile, despite training on vast quantities of internet video data, state-of-the-art deep learning models still fall short of human-level performance on intuitive physics benchmarks. This work investigates whether data distribution, rather than volume, is the key to learning these principles. We pretrain a Video Joint Embedding Predictive Architecture (V-JEPA) model on SAYCam, a developmentally realistic, egocentric video dataset partially capturing three children's everyday visual experiences. We find that training on this dataset, which represents 0.01% of the data volume used to train SOTA models, does not lead to significant performance improvements on the IntPhys2 benchmark. Our results suggest that merely training on a developmentally realistic dataset is insufficient for current architectures to learn representations that support intuitive physics. We conclude that varying visual data volume and distribution alone may not be sufficient for building systems with artificial intuitive physics.
- Abstract(参考訳): 人間は、物理の直感的な理解に基づいて、豊かな内部モデルを構築することで、世界を精力的にナビゲートする。
一方で、大量のインターネットビデオデータをトレーニングしているにもかかわらず、最先端のディープラーニングモデルは、直感的な物理ベンチマークにおける人間レベルのパフォーマンスに欠けています。
この研究は、データ分散がボリュームではなく、これらの原則を学ぶための鍵であるかどうかを調査する。
発達的に現実的で,エゴセントリックなビデオデータセットであるSAYCam上で,ビデオ共同埋め込み予測アーキテクチャ(V-JEPA)モデルを事前訓練した。
このデータセットのトレーニングは、SOTAモデルのトレーニングに使用されるデータボリュームの0.01%を占めていますが、IntPhys2ベンチマークでは大きなパフォーマンス改善には至っていません。
以上の結果から,発展的現実的なデータセットのトレーニングだけでは,直感的な物理をサポートする表現を学習できないことが示唆された。
視覚的データ量や分布の変化だけでは、人工的な直感的な物理を持つシステムを構築するには十分ではないと結論付けている。
関連論文リスト
- LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference [57.086932851733145]
ビデオ拡散モデルにおける直感的な物理を評価するトレーニング不要な方法であるLikePhysを紹介した。
現在のビデオ拡散モデルにおける直観的物理理解のベンチマークを行う。
経験的結果は、現在のモデルが複雑でカオス的な力学に苦しむにもかかわらず、モデルキャパシティと推論設定スケールとしての物理理解の改善傾向が明らかであることを示している。
論文 参考訳(メタデータ) (2025-10-13T15:19:07Z) - PhysiX: A Foundation Model for Physics Simulations [27.359872113159405]
物理シミュレーションのための最初の大規模基礎モデルであるPhysorXを紹介する。
PhysiXはデータボトルネックに効果的に対処し、タスク固有のベースラインを上回ります。
その結果,自然ビデオから学んだ知識が物理シミュレーションにうまく移行できることが示唆された。
論文 参考訳(メタデータ) (2025-06-21T18:10:12Z) - Scaling Physical Reasoning with the PHYSICS Dataset [39.960500815534836]
PHYSICSは、被験者と難易度にまたがる16,568の高品質な物理問題を含むデータセットである。
力学、電磁気学、熱力学、光学、現代物理学の5つの分野を網羅している。
また、高校から大学院レベルの物理学コースまで幅広い難易度がある。
論文 参考訳(メタデータ) (2025-05-21T17:06:28Z) - The Sound of Water: Inferring Physical Properties from Pouring Liquids [85.30865788636386]
注水液の音響・視覚観測と物理の関連性について検討した。
本研究の目的は, 液位, 容器形状, 注水速度, 充填時間などの物性を自動的に推定することである。
論文 参考訳(メタデータ) (2024-11-18T01:19:37Z) - Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - 3D-IntPhys: Towards More Generalized 3D-grounded Visual Intuitive
Physics under Challenging Scenes [68.66237114509264]
複雑なシーンと流体の映像から3次元的な視覚的直感的な物理モデルを学習できるフレームワークを提案する。
本モデルでは,生画像から学習し,明示的な3次元表現空間を用いないモデルよりもはるかに優れた将来予測が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-22T19:28:49Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。