論文の概要: SlotPi: Physics-informed Object-centric Reasoning Models
- arxiv url: http://arxiv.org/abs/2506.10778v1
- Date: Thu, 12 Jun 2025 14:53:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.798464
- Title: SlotPi: Physics-informed Object-centric Reasoning Models
- Title(参考訳): SlotPi:物理インフォームドオブジェクト中心推論モデル
- Authors: Jian Li, Wan Han, Ning Lin, Yu-Liang Zhan, Ruizhi Chengze, Haining Wang, Yi Zhang, Hongsheng Liu, Zidong Wang, Fan Yu, Hao Sun,
- Abstract要約: 物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
- 参考スコア(独自算出の注目度): 37.32107835829927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and reasoning about dynamics governed by physical laws through visual observation, akin to human capabilities in the real world, poses significant challenges. Currently, object-centric dynamic simulation methods, which emulate human behavior, have achieved notable progress but overlook two critical aspects: 1) the integration of physical knowledge into models. Humans gain physical insights by observing the world and apply this knowledge to accurately reason about various dynamic scenarios; 2) the validation of model adaptability across diverse scenarios. Real-world dynamics, especially those involving fluids and objects, demand models that not only capture object interactions but also simulate fluid flow characteristics. To address these gaps, we introduce SlotPi, a slot-based physics-informed object-centric reasoning model. SlotPi integrates a physical module based on Hamiltonian principles with a spatio-temporal prediction module for dynamic forecasting. Our experiments highlight the model's strengths in tasks such as prediction and Visual Question Answering (VQA) on benchmark and fluid datasets. Furthermore, we have created a real-world dataset encompassing object interactions, fluid dynamics, and fluid-object interactions, on which we validated our model's capabilities. The model's robust performance across all datasets underscores its strong adaptability, laying a foundation for developing more advanced world models.
- Abstract(参考訳): 視覚的な観察を通して物理法則によって支配される力学について理解し、推論することは、現実世界の人間の能力と同様、重大な課題を提起する。
現在、人間の振る舞いをエミュレートするオブジェクト中心の動的シミュレーション法は、顕著な進歩を遂げているが、2つの重要な側面を見落としている。
1)物理知識のモデルへの統合。
人間は、世界を観察し、この知識を適用して、様々な動的なシナリオを正確に推論する。
2)様々なシナリオにまたがるモデル適応性の検証。
現実の力学、特に流体や物体を含むものは、物体の相互作用を捉えるだけでなく、流体の流動特性をシミュレートするモデルを必要とする。
これらのギャップに対処するために、スロットベースの物理インフォームドオブジェクト中心推論モデルであるSlotPiを導入する。
SlotPiはハミルトン原理に基づく物理モジュールを動的予測のための時空間予測モジュールと統合する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
さらに、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証する。
モデルの全データセットにわたる堅牢なパフォーマンスは、その強力な適応性を強調し、より先進的な世界モデルを開発する基盤を築き上げている。
関連論文リスト
- PhysDreamer: Physics-Based Interaction with 3D Objects via Video Generation [62.53760963292465]
PhysDreamerは物理に基づくアプローチで、静的な3Dオブジェクトにインタラクティブなダイナミクスを与える。
本稿では, 弾性物体の多様な例について考察し, ユーザスタディを通じて合成された相互作用の現実性を評価する。
論文 参考訳(メタデータ) (2024-04-19T17:41:05Z) - Learning Physical Dynamics for Object-centric Visual Prediction [7.395357888610685]
視覚シーンの基盤となるダイナミクスをモデル化し、未来についての理屈をモデル化する能力は、人間の知性の中心である。
本稿では,オブジェクト間の視覚的ダイナミクスを学習することにより,将来予測を行う,教師なしオブジェクト中心予測モデルを提案する。
論文 参考訳(メタデータ) (2024-03-15T07:45:25Z) - ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。
私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。
また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文 参考訳(メタデータ) (2024-02-09T01:09:21Z) - Physics-Integrated Variational Autoencoders for Robust and Interpretable
Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。
本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。
合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文 参考訳(メタデータ) (2021-02-25T20:28:52Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。