論文の概要: Interpretable Representation Learning from Videos using Nonlinear Priors
- arxiv url: http://arxiv.org/abs/2410.18539v1
- Date: Thu, 24 Oct 2024 08:39:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:50:56.067887
- Title: Interpretable Representation Learning from Videos using Nonlinear Priors
- Title(参考訳): 非線形優先度を用いたビデオからの解釈可能な表現学習
- Authors: Marian Longa, João F. Henriques,
- Abstract要約: 本稿では,ビデオの非線形先行を指定可能なディープラーニングフレームワークを提案する。
我々は、単純な等方的ガウスから任意の非線形時間付加雑音モデル(ANM)に先立って変分オートエンコーダ(VAE)を拡張することでこれを実現している。
本手法は, 振り子, スプリング上の質量, 落下物, パルサーなどの実世界の物理映像で検証した。
- 参考スコア(独自算出の注目度): 15.779730667509915
- License:
- Abstract: Learning interpretable representations of visual data is an important challenge, to make machines' decisions understandable to humans and to improve generalisation outside of the training distribution. To this end, we propose a deep learning framework where one can specify nonlinear priors for videos (e.g. of Newtonian physics) that allow the model to learn interpretable latent variables and use these to generate videos of hypothetical scenarios not observed at training time. We do this by extending the Variational Auto-Encoder (VAE) prior from a simple isotropic Gaussian to an arbitrary nonlinear temporal Additive Noise Model (ANM), which can describe a large number of processes (e.g. Newtonian physics). We propose a novel linearization method that constructs a Gaussian Mixture Model (GMM) approximating the prior, and derive a numerically stable Monte Carlo estimate of the KL divergence between the posterior and prior GMMs. We validate the method on different real-world physics videos including a pendulum, a mass on a spring, a falling object and a pulsar (rotating neutron star). We specify a physical prior for each experiment and show that the correct variables are learned. Once a model is trained, we intervene on it to change different physical variables (such as oscillation amplitude or adding air drag) to generate physically correct videos of hypothetical scenarios that were not observed previously.
- Abstract(参考訳): 視覚データの解釈可能な表現を学習することは、機械の判断を人間に理解しやすくし、トレーニング分布外の一般化を改善するために重要な課題である。
そこで本研究では,解釈可能な潜伏変数を学習し,学習時に観測されない仮説的シナリオのビデオを生成することができる,ビデオの非線形前処理(ニュートン物理学など)を記述可能なディープラーニングフレームワークを提案する。
本研究では, 変分自動エンコーダ(VAE)を単純な等方的ガウスから任意の非線形時間付加雑音モデル(ANM)に拡張することにより, 多数のプロセス(ニュートン物理学など)を記述できる。
本稿では, ガウス混合モデル (GMM) を事前近似した線形化法を提案し, 後方GMMと先行GMMのKL偏差を数値的に安定なモンテカルロ推定法を提案する。
本手法は、振り子、バネ上の質量、落下物体、パルサー(回転中性子星)を含む実世界の物理ビデオで検証する。
実験毎に物理先を指定し、正しい変数が学習されていることを示す。
モデルが訓練されたら、振動振幅や空気抵抗などの異なる物理変数を変更して、以前に観測されなかった仮説上のシナリオの物理的に正しいビデオを生成する。
関連論文リスト
- How Far is Video Generation from World Model: A Physical Law Perspective [101.24278831609249]
OpenAIのSoraは、物理法則に準拠した世界モデルを開発するためのビデオ生成の可能性を強調している。
しかし、ビデオ生成モデルが人間の先行しない視覚データから純粋にそのような法則を発見する能力に疑問を投げかけることができる。
本研究は,3つの主要なシナリオ – 分布内,分布外,一般化 – について評価する。
論文 参考訳(メタデータ) (2024-11-04T18:53:05Z) - Scaling and renormalization in high-dimensional regression [72.59731158970894]
本稿では,様々な高次元リッジ回帰モデルの訓練および一般化性能の簡潔な導出について述べる。
本稿では,物理と深層学習の背景を持つ読者を対象に,これらのトピックに関する最近の研究成果の紹介とレビューを行う。
論文 参考訳(メタデータ) (2024-05-01T15:59:00Z) - Probabilistic Unrolling: Scalable, Inverse-Free Maximum Likelihood
Estimation for Latent Gaussian Models [69.22568644711113]
我々は,モンテカルロサンプリングと反復線形解法を組み合わせた確率的アンローリングを導入し,行列逆転を回避した。
理論的解析により,解法の繰り返しによる解法の解法と逆転が最大値推定の勾配推定を高速化することを示した。
シミュレーションおよび実データ実験において、確率的アンロールは、モデル性能の損失を最小限に抑えながら、勾配EMよりも桁違いに高速な潜在ガウスモデルを学習することを示した。
論文 参考訳(メタデータ) (2023-06-05T21:08:34Z) - PETAL: Physics Emulation Through Averaged Linearizations for Solving
Inverse Problems [0.6039786064227648]
逆問題では、オブザーバブルが与えられた関心のシグナルを回復するタスクが記述される。
本稿では,様々な基準点を囲む前方モデルの線形化をモデル自体に組み込む,単純な学習重み付き平均モデルを提案する。
論文 参考訳(メタデータ) (2023-05-18T15:50:54Z) - Physics-enhanced Gaussian Process Variational Autoencoder [21.222154875601984]
変分オートエンコーダは、高次元の入出力データに基づいて低次元の潜在空間を学習することができる。
そこで本研究では,物理学的に拡張された変分オートエンコーダを提案し,物理的に拡張されたガウス過程を潜時力学に先立って配置する。
提案手法の利点は振動粒子を用いたシミュレーションで強調される。
論文 参考訳(メタデータ) (2023-05-15T20:41:39Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Physics-informed Information Field Theory for Modeling Physical Systems with Uncertainty Quantification [0.0]
情報場理論(IFT)は、必ずしもガウス的ではない分野の統計を行うために必要なツールを提供する。
IFT を物理インフォームド IFT (PIFT) に拡張し,フィールドを記述する物理法則に関する情報を符号化する。
このPIFTから派生した後部は任意の数値スキームとは独立であり、複数のモードをキャプチャすることができる。
本手法は,物理が信頼できないことを正確に認識し,その場合,フィールドの学習を回帰問題として自動的に処理する。
論文 参考訳(メタデータ) (2023-01-18T15:40:19Z) - Modelling of physical systems with a Hopf bifurcation using mechanistic
models and machine learning [0.0]
物理系の極限周期振動をホップ分岐で予測するために,機械的モデルと機械的モデルを組み合わせた新しいハイブリッド・モデリング手法を提案する。
このモデルから実験観測へのデータ駆動マッピングは、機械学習技術を用いて実験データに基づいて同定される。
この手法は汎用的でデータ効率が良く、分岐構造以外のシステムについて事前の知識がなければ精度が良いことが示されている。
論文 参考訳(メタデータ) (2022-09-07T12:27:11Z) - Likelihood-Free Inference in State-Space Models with Unknown Dynamics [71.94716503075645]
本研究では、状態空間モデルにおいて、観測をシミュレートすることしかできず、遷移ダイナミクスが不明な潜在状態の推測と予測を行う手法を提案する。
本研究では,限られた数のシミュレーションで状態予測と状態予測を行う手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T12:33:42Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Deep Variational Luenberger-type Observer for Stochastic Video
Prediction [46.82873654555665]
本研究では,状態空間モデルの解釈可能性とディープニューラルネットワークの表現を組み合わせ,映像予測の課題について検討する。
我々のモデルは,入力映像を潜時特徴空間に変換する変分エンコーダと,潜時特徴の動的進化を捉えたルエンベルガー型オブザーバの上に構築されている。
論文 参考訳(メタデータ) (2020-02-12T06:59:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。