論文の概要: Intuitive physics understanding emerges from self-supervised pretraining on natural videos
- arxiv url: http://arxiv.org/abs/2502.11831v1
- Date: Mon, 17 Feb 2025 14:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:15:07.750393
- Title: Intuitive physics understanding emerges from self-supervised pretraining on natural videos
- Title(参考訳): 自然ビデオの自己教師型事前学習から直観的物理理解が生まれる
- Authors: Quentin Garrido, Nicolas Ballas, Mahmoud Assran, Adrien Bardes, Laurent Najman, Michael Rabbat, Emmanuel Dupoux, Yann LeCun,
- Abstract要約: 自然映像におけるマスキング領域の予測を訓練したディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。
学習された表現空間における結果を予測するために訓練された映像予測モデルは、様々な直感的な物理特性の理解を示す。
- 参考スコア(独自算出の注目度): 39.030105916720835
- License:
- Abstract: We investigate the emergence of intuitive physics understanding in general-purpose deep neural network models trained to predict masked regions in natural videos. Leveraging the violation-of-expectation framework, we find that video prediction models trained to predict outcomes in a learned representation space demonstrate an understanding of various intuitive physics properties, such as object permanence and shape consistency. In contrast, video prediction in pixel space and multimodal large language models, which reason through text, achieve performance closer to chance. Our comparisons of these architectures reveal that jointly learning an abstract representation space while predicting missing parts of sensory input, akin to predictive coding, is sufficient to acquire an understanding of intuitive physics, and that even models trained on one week of unique video achieve above chance performance. This challenges the idea that core knowledge -- a set of innate systems to help understand the world -- needs to be hardwired to develop an understanding of intuitive physics.
- Abstract(参考訳): 自然映像におけるマスキング領域の予測を訓練した汎用ディープニューラルネットワークモデルにおける直感的な物理理解の出現について検討する。
予測の枠組みを活用すれば、学習された表現空間における結果を予測するために訓練されたビデオ予測モデルが、物体の永続性や形状の整合性といった様々な直感的な物理特性の理解を実証できることが分かる。
対照的に、ピクセル空間とマルチモーダルな大言語モデルにおけるビデオ予測は、テキストによって引き起こされるので、偶然に近いパフォーマンスを実現している。
これらのアーキテクチャとの比較から,感覚入力の欠落部分を予測しながら抽象的な表現空間を共同学習することで,直感的な物理の理解を得るのに十分であり,一週間のユニークなビデオでトレーニングされたモデルでさえ,より高い確率で達成できることが分かる。
これは、コア知識(世界を理解するために生まれつきのシステム)が直感的な物理学の理解を深めるためには、ハードワイヤリングが必要であるという考えに挑戦する。
関連論文リスト
- Latent Intuitive Physics: Learning to Transfer Hidden Physics from A 3D Video [58.043569985784806]
本稿では,物理シミュレーションのための伝達学習フレームワークである潜在直観物理学を紹介する。
単一の3Dビデオから流体の隠れた性質を推測し、新しいシーンで観察された流体をシミュレートすることができる。
我々は,本モデルの有効性を3つの方法で検証する: (i) 学習されたビジュアルワールド物理を用いた新しいシーンシミュレーション, (ii) 観測された流体力学の将来予測, (iii) 教師付き粒子シミュレーション。
論文 参考訳(メタデータ) (2024-06-18T16:37:44Z) - X-VoE: Measuring eXplanatory Violation of Expectation in Physical Events [75.94926117990435]
本研究では,AIエージェントによる直感的な物理の把握を評価するベンチマークデータセットであるX-VoEを紹介する。
X-VoEは直感的な物理モデルの説明能力を高めるためのより高いバーを確立する。
本稿では、物理力学を捉え、隠蔽対象状態を推定する説明に基づく学習システムを提案する。
論文 参考訳(メタデータ) (2023-08-21T03:28:23Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - Learning to Identify Physical Parameters from Video Using Differentiable
Physics [2.15242029196761]
本稿では,アクション条件付きビデオ表現ネットワーク内の物理エンジンを用いて物理潜在表現を学習する手法を提案する。
われわれのネットワークは、画像のエンコードと、ビデオやアクションシーケンスからの質量や摩擦などの物理的特性の同定を学習できることを実証する。
論文 参考訳(メタデータ) (2020-09-17T13:36:57Z) - Occlusion resistant learning of intuitive physics from videos [52.25308231683798]
人工システムの鍵となる能力は、オブジェクト間の物理的相互作用を理解し、状況の将来的な結果を予測することである。
この能力は直感的な物理学と呼ばれ、近年注目されており、ビデオシーケンスからこれらの物理規則を学ぶためのいくつかの方法が提案されている。
論文 参考訳(メタデータ) (2020-04-30T19:35:54Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。