論文の概要: The Power of Next-Frame Prediction for Learning Physical Laws
- arxiv url: http://arxiv.org/abs/2405.17450v1
- Date: Tue, 21 May 2024 17:55:54 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-02 14:20:20.480159
- Title: The Power of Next-Frame Prediction for Learning Physical Laws
- Title(参考訳): 物理法則学習における次世代予測の力
- Authors: Thomas Winterbottom, G. Thomas Hudson, Daniel Kluvanec, Dean Slack, Jamie Sterling, Junjie Shentu, Chenghao Xiao, Zheming Zhou, Noura Al Moubayed,
- Abstract要約: 次フレーム予測はビデオデータのダイナミックスをモデル化し理解するための有用で強力な手法である。
本稿では,重力や質量などの物理定数の異なる物理法則から導出した6つの診断シミュレーションビデオデータセットについて紹介する。
生成学習フェーズだけでは、ランダムモデルよりもはるかに優れた物理定数を予測できるモデル状態が誘導される。
- 参考スコア(独自算出の注目度): 5.624870417352306
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Next-frame prediction is a useful and powerful method for modelling and understanding the dynamics of video data. Inspired by the empirical success of causal language modelling and next-token prediction in language modelling, we explore the extent to which next-frame prediction serves as a strong foundational learning strategy (analogous to language modelling) for inducing an understanding of the visual world. In order to quantify the specific visual understanding induced by next-frame prediction, we introduce six diagnostic simulation video datasets derived from fundamental physical laws created by varying physical constants such as gravity and mass. We demonstrate that our models trained only on next-frame prediction are capable of predicting the value of these physical constants (e.g. gravity) without having been trained directly to learn these constants via a regression task. We find that the generative training phase alone induces a model state that can predict physical constants significantly better than that of a random model, improving the loss by a factor of between 1.28 to 6.24. We conclude that next-frame prediction shows great promise as a general learning strategy to induce understanding of the many `laws' that govern the visual domain without the need for explicit labelling.
- Abstract(参考訳): 次フレーム予測はビデオデータのダイナミックスをモデル化し理解するための有用で強力な手法である。
因果的言語モデリングの実証的成功と言語モデリングにおける次世代の予測から着想を得て,次世代の予測が視覚世界を理解するための強力な基礎学習戦略(言語モデリングと類似)として機能するかを考察する。
次フレーム予測によって引き起こされる特定の視覚的理解を定量化するために,重力や質量などの物理定数の変化によって生成される基本的物理法則から導かれる6つの診断シミュレーションビデオデータセットを提案する。
我々は、次のフレームの予測のみに基づいてトレーニングされたモデルが、回帰タスクを通じてこれらの定数を直接訓練することなく、これらの物理定数(例えば重力)の価値を予測できることを実証した。
生成学習フェーズだけでは、ランダムモデルよりも物理定数を著しく予測できるモデル状態が誘導され、1.28~6.24の係数による損失が向上することがわかった。
我々は、視覚領域を支配する多くの「法則」の理解を、明示的なラベリングを必要とせずに誘導する一般的な学習戦略として、次のフレーム予測が大いに期待できると結論付けた。
関連論文リスト
- Interpretable Machine Learning for Weather and Climate Prediction: A Survey [24.028385794099435]
気象予測に適用された現在の解釈可能な機械学習手法について概説する。
ツリーアンサンブルや説明可能なニューラルネットワークといったアーキテクチャを使って、スクラッチから本質的に解釈可能なモデルを設計する。
物理原理に沿ったより深い機械的解釈を達成するための研究課題について論じる。
論文 参考訳(メタデータ) (2024-03-24T14:23:35Z) - Large language models implicitly learn to straighten neural sentence
trajectories to construct a predictive representation of natural language [2.1756081703276]
自己回帰変換器の予測表現に関する仮説を検証した。
重要な洞察は、直線的な軌道は線形外挿による予測を促進するべきであるということである。
1次元曲率計を用いて直線性を定量化する。
論文 参考訳(メタデータ) (2023-11-05T22:16:21Z) - Understanding Self-Predictive Learning for Reinforcement Learning [61.62067048348786]
強化学習のための自己予測学習の学習ダイナミクスについて検討する。
本稿では,2つの表現を同時に学習する新しい自己予測アルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-06T20:43:37Z) - Localization vs. Semantics: Visual Representations in Unimodal and
Multimodal Models [57.08925810659545]
既存の視覚・言語モデルと視覚のみのモデルにおける視覚表現の比較分析を行う。
我々の経験的観察は、視覚・言語モデルがラベル予測タスクに優れていることを示唆している。
我々の研究は、視覚学習における言語の役割に光を当て、様々な事前学習モデルの実証的なガイドとして機能することを願っている。
論文 参考訳(メタデータ) (2022-12-01T05:00:18Z) - Measuring Causal Effects of Data Statistics on Language Model's
`Factual' Predictions [59.284907093349425]
大量のトレーニングデータが、最先端のNLPモデルの高性能化の大きな理由の1つである。
トレーニングデータがどのように予測に影響を及ぼすかを記述するための言語を,因果的フレームワークを通じて提供する。
我々のフレームワークは、高価なモデルの再訓練の必要性を回避し、観測データのみに基づいて因果効果を推定することができる。
論文 参考訳(メタデータ) (2022-07-28T17:36:24Z) - Pathologies of Pre-trained Language Models in Few-shot Fine-tuning [50.3686606679048]
実例が少ない事前学習言語モデルはラベル間に強い予測バイアスを示すことを示す。
わずかな微調整で予測バイアスを軽減できるが,本分析では,非タスク関連の特徴を捉えることで,モデルの性能向上を図っている。
これらの観察は、より少ない例でモデルのパフォーマンスを追求することは、病理学的予測行動を引き起こす可能性があることを警告する。
論文 参考訳(メタデータ) (2022-04-17T15:55:18Z) - A Survey of Knowledge Enhanced Pre-trained Models [28.160826399552462]
知識注入を伴う事前学習言語モデルを知識強化事前学習言語モデル(KEPLM)と呼ぶ。
これらのモデルは深い理解と論理的推論を示し、解釈可能性を導入する。
論文 参考訳(メタデータ) (2021-10-01T08:51:58Z) - Hessian-based toolbox for reliable and interpretable machine learning in
physics [58.720142291102135]
本稿では,モデルアーキテクチャの解釈可能性と信頼性,外挿を行うためのツールボックスを提案する。
与えられたテストポイントでの予測に対する入力データの影響、モデル予測の不確実性の推定、およびモデル予測の不可知スコアを提供する。
我々の研究は、物理学やより一般的には科学に適用されたMLにおける解釈可能性と信頼性の方法の体系的利用への道を開く。
論文 参考訳(メタデータ) (2021-08-04T16:32:59Z) - Learning Accurate Long-term Dynamics for Model-based Reinforcement
Learning [7.194382512848327]
より長い地平線で安定的に予測するために, 状態作用データに対する教師付き学習のための新しいパラメータ化を提案する。
シミュレーションおよび実験によるロボット作業の結果,軌道に基づくモデルにより,より正確な長期予測が得られた。
論文 参考訳(メタデータ) (2020-12-16T18:47:37Z) - Visual Grounding of Learned Physical Models [66.04898704928517]
人間は、物体の物理的特性を直感的に認識し、複雑な相互作用に従事している場合でも、その動きを予測する。
我々は、物理を同時に推論し、視覚と力学の先行に基づく将来の予測を行うニューラルモデルを提案する。
実験により、我々のモデルはいくつかの観測範囲内で物理的特性を推測できることが示され、モデルが目に見えないシナリオに迅速に適応し、将来正確な予測を行うことができる。
論文 参考訳(メタデータ) (2020-04-28T17:06:38Z) - Improved Speech Representations with Multi-Target Autoregressive
Predictive Coding [23.424410568555547]
我々は、将来のフレームを正確に予測できる隠された状態が、多くの下流タスクに有用な表現である、という仮説を拡張した。
本稿では、将来のフレーム予測タスクの一般化を改善するための正規化として機能する補助的目的を提案する。
論文 参考訳(メタデータ) (2020-04-11T01:09:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。