論文の概要: Towards Nonlinear Disentanglement in Natural Data with Temporal Sparse
Coding
- arxiv url: http://arxiv.org/abs/2007.10930v2
- Date: Wed, 17 Mar 2021 14:20:05 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 03:53:22.869985
- Title: Towards Nonlinear Disentanglement in Natural Data with Temporal Sparse
Coding
- Title(参考訳): テンポラルスパース符号化を用いた自然データにおける非線形歪みに向けて
- Authors: David Klindt, Lukas Schott, Yash Sharma, Ivan Ustyuzhaninov, Wieland
Brendel, Matthias Bethge, Dylan Paiton
- Abstract要約: 本研究では,非教師なし学習モデルを構築し,非教師なし学習モデルを構築した。
分割された自然映画の中の物体が、時折大きなジャンプを伴う大小の遷移を行う証拠を提供する。
このモデルでは、いくつかの確立されたベンチマークデータセット上で、しばしば現在の最先端のモデルを上回る不整合表現を確実に学習できることが示される。
- 参考スコア(独自算出の注目度): 33.34524146491755
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We construct an unsupervised learning model that achieves nonlinear
disentanglement of underlying factors of variation in naturalistic videos.
Previous work suggests that representations can be disentangled if all but a
few factors in the environment stay constant at any point in time. As a result,
algorithms proposed for this problem have only been tested on carefully
constructed datasets with this exact property, leaving it unclear whether they
will transfer to natural scenes. Here we provide evidence that objects in
segmented natural movies undergo transitions that are typically small in
magnitude with occasional large jumps, which is characteristic of a temporally
sparse distribution. We leverage this finding and present SlowVAE, a model for
unsupervised representation learning that uses a sparse prior on temporally
adjacent observations to disentangle generative factors without any assumptions
on the number of changing factors. We provide a proof of identifiability and
show that the model reliably learns disentangled representations on several
established benchmark datasets, often surpassing the current state-of-the-art.
We additionally demonstrate transferability towards video datasets with natural
dynamics, Natural Sprites and KITTI Masks, which we contribute as benchmarks
for guiding disentanglement research towards more natural data domains.
- Abstract(参考訳): 本研究では,自然映像の変動要因の非線形不等角化を実現する教師なし学習モデルを構築した。
以前の研究は、環境内のいくつかの要素以外が常に一定であれば、表現が切り離される可能性があることを示唆している。
結果として、この問題のために提案されたアルゴリズムは、この正確な性質を持つ慎重に構築されたデータセットでのみテストされ、それらが自然の場面に移行するかどうかは不明である。
ここでは, 分割された自然映画の中の物体が, 時折大きな跳躍を伴って大小の遷移を起こし, 時間的に希薄な分布を特徴とする証拠を示す。
この発見と現在のslowvaeは非教師なし表現学習のモデルであり、時間的に隣接した観測に先立ってスパースを使い、変化する因子の数を仮定せずに生成因子を分離する。
そこで本研究では,本モデルがいくつかの確立されたベンチマークデータセット上で,しばしば最先端のデータを超越した不整合表現を確実に学習することを示す。
さらに,自然力学,自然スプライト,キティマスクを用いた映像データセットへの転送可能性を示す。
関連論文リスト
- Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Predictive variational autoencoder for learning robust representations
of time-series data [0.0]
本稿では,次点を予測するVAEアーキテクチャを提案する。
VAEの2つの制約は、時間とともにスムーズであることを示し、堅牢な潜伏表現を生成し、合成データセット上の潜伏因子を忠実に回収する。
論文 参考訳(メタデータ) (2023-12-12T02:06:50Z) - Time-series Generation by Contrastive Imitation [87.51882102248395]
モーメントマッチングの目的によってモチベーションされ、複合的エラーを軽減し、局所的(しかし前方的な)遷移ポリシーを最適化する。
推論において、学習されたポリシーは反復的なサンプリングのジェネレータとして機能し、学習されたエネルギーはサンプルの品質を評価するための軌道レベル尺度として機能する。
論文 参考訳(メタデータ) (2023-11-02T16:45:25Z) - MomentDiff: Generative Video Moment Retrieval from Random to Real [71.40038773943638]
私たちは、MomentDiffという拡散に基づく生成フレームワークを提供しています。
MomentDiffは、ランダムなブラウジングから段階的なローカライゼーションまで、典型的な人間の検索プロセスをシミュレートする。
MomentDiffは3つの公開ベンチマークで最先端の手法を一貫して上回っていることを示す。
論文 参考訳(メタデータ) (2023-07-06T09:12:13Z) - Probabilistic Learning of Multivariate Time Series with Temporal
Irregularity [25.91078012394032]
不均一な時間間隔やコンポーネントのミスアライメントを含む時間的不規則。
我々は,非ガウス的データ分布を非パラメトリック的に表現する条件フロー表現を開発する。
提案手法の広範な適用性と優位性は,実世界のデータセット上でのアブレーション研究とテストを通じて,既存のアプローチと比較することによって確認される。
論文 参考訳(メタデータ) (2023-06-15T14:08:48Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Discovering Predictable Latent Factors for Time Series Forecasting [39.08011991308137]
我々は,観測可能な時系列によって示唆される本質的な潜伏因子を推定するための新しい枠組みを開発する。
予測可能性,充足性,識別性という3つの特性を導入し,これらの特性を強力な潜伏力学モデルを用いてモデル化する。
複数の実データに対する実験結果から, 時系列予測の手法の有効性が示唆された。
論文 参考訳(メタデータ) (2023-03-18T14:37:37Z) - TempSAL -- Uncovering Temporal Information for Deep Saliency Prediction [64.63645677568384]
本稿では,逐次時間間隔でサリエンシマップを出力する新たなサリエンシ予測モデルを提案する。
提案手法は,学習した時間マップを組み合わせることで,サリエンシ予測を局所的に調整する。
私たちのコードはGitHubで公開されます。
論文 参考訳(メタデータ) (2023-01-05T22:10:16Z) - TACTiS: Transformer-Attentional Copulas for Time Series [76.71406465526454]
時間変化量の推定は、医療や金融などの分野における意思決定の基本的な構成要素である。
本稿では,アテンションベースデコーダを用いて関節分布を推定する多元的手法を提案する。
本研究では,本モデルが実世界の複数のデータセットに対して最先端の予測を生成することを示す。
論文 参考訳(メタデータ) (2022-02-07T21:37:29Z) - Recur, Attend or Convolve? Frame Dependency Modeling Matters for
Cross-Domain Robustness in Action Recognition [0.5448283690603357]
従来,2次元畳み込みニューラルネットワーク(CNN)は,コンピュータビジョンタスクの形状よりもテクスチャに偏っている傾向があった。
これは、大きなビデオモデルが時間の経過とともに関連した形状を追跡するのではなく、急激な相関関係を学習しているという疑いを提起する。
本研究では, フレーム依存性のモデリングによって, 連続的, 注意的, 畳み込み的ビデオモデルに対するドメイン間ロバスト性について検討した。
論文 参考訳(メタデータ) (2021-12-22T19:11:53Z) - Disentangled Recurrent Wasserstein Autoencoder [17.769077848342334]
Recurrent Wasserstein Autoencoder (R-WAE)はシーケンシャルデータの生成モデリングのための新しいフレームワークである。
R-WAEは入力シーケンスの表現を静的および動的因子に切り離す。
私達のモデルは無条件のビデオ生成およびdisentanglementの点では同じ設定の他のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-01-19T07:43:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。