論文の概要: Disentangling Multiple Features in Video Sequences using Gaussian
Processes in Variational Autoencoders
- arxiv url: http://arxiv.org/abs/2001.02408v3
- Date: Sun, 19 Jul 2020 14:31:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-13 12:41:52.526206
- Title: Disentangling Multiple Features in Video Sequences using Gaussian
Processes in Variational Autoencoders
- Title(参考訳): 変分オートエンコーダにおけるガウス過程を用いた映像列の多重特徴の解消
- Authors: Sarthak Bhagat, Shagun Uppal, Zhuyun Yin and Nengli Lim
- Abstract要約: ビデオシーケンスにおける非教師なし表現学習のための潜在空間をモデル化するためにガウス過程(GP)を用いる変分オートエンコーダであるMGP-VAEを導入する。
分数的ブラウン運動 (fBM) とブラウンブリッジ (BB) を用いて, 各独立チャネルにおけるフレーム間相関構造を強制し, この構造の変化によって, データの変動の異なる要因を捉えることができることを示す。
- 参考スコア(独自算出の注目度): 6.461473289206789
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce MGP-VAE (Multi-disentangled-features Gaussian Processes
Variational AutoEncoder), a variational autoencoder which uses Gaussian
processes (GP) to model the latent space for the unsupervised learning of
disentangled representations in video sequences. We improve upon previous work
by establishing a framework by which multiple features, static or dynamic, can
be disentangled. Specifically we use fractional Brownian motions (fBM) and
Brownian bridges (BB) to enforce an inter-frame correlation structure in each
independent channel, and show that varying this structure enables one to
capture different factors of variation in the data. We demonstrate the quality
of our representations with experiments on three publicly available datasets,
and also quantify the improvement using a video prediction task. Moreover, we
introduce a novel geodesic loss function which takes into account the curvature
of the data manifold to improve learning. Our experiments show that the
combination of the improved representations with the novel loss function enable
MGP-VAE to outperform the baselines in video prediction.
- Abstract(参考訳): MGP-VAE(Multi-disentangled-features Gaussian Processes Variational AutoEncoder)は,ビデオシーケンス内の非教師なし表現の学習において,ガウス過程(GP)を用いて潜在空間をモデル化する変分オートエンコーダである。
我々は、静的または動的に複数の機能をアンタングル化できるフレームワークを確立することで、以前の作業を改善する。
具体的には、各独立チャネルにおいてフレーム間相関構造を強制するために、分数的ブラウン運動(fBM)とブラウン橋(BB)を用い、この構造の変化により、データの変化の異なる要因を捉えることができることを示す。
我々は,3つの公開データセットを用いた実験により,表現の質を実証するとともに,映像予測タスクを用いて改善度を定量化する。
さらに,データ多様体の曲率を考慮した新しい測地線損失関数を導入し,学習を改善する。
実験により,改良された表現と新たな損失関数の組み合わせにより,mgp-vaeはビデオ予測のベースラインを上回った。
関連論文リスト
- Variational Bayes Gaussian Splatting [44.43761190929142]
3Dガウシアン・スプラッティングはガウシアンの混合物を用いて3Dシーンをモデル化するための有望なアプローチとして登場した。
本稿では,モデルパラメータに対する変分推論としてガウススプレートをトレーニングするための新しい手法である変分ベイズ・ガウス・スプラッティングを提案する。
実験の結果,VBGSは静的データセット上での最先端性能だけでなく,逐次ストリームされた2Dおよび3Dデータからの連続的な学習も可能であった。
論文 参考訳(メタデータ) (2024-10-04T16:52:03Z) - Heterogeneous Multi-Task Gaussian Cox Processes [61.67344039414193]
異種相関タスクを共同でモデル化するためのマルチタスクガウスコックスプロセスの新たな拡張を提案する。
MOGPは、分類、回帰、ポイントプロセスタスクの専用可能性のパラメータに先行して、異種タスク間の情報の共有を容易にする。
モデルパラメータを推定するための閉形式反復更新を実現する平均場近似を導出する。
論文 参考訳(メタデータ) (2023-08-29T15:01:01Z) - VTAE: Variational Transformer Autoencoder with Manifolds Learning [144.0546653941249]
深層生成モデルは、多くの潜伏変数を通して非線形データ分布の学習に成功している。
ジェネレータの非線形性は、潜在空間がデータ空間の不満足な射影を示し、表現学習が不十分になることを意味する。
本研究では、測地学と正確な計算により、深部生成モデルの性能を大幅に向上させることができることを示す。
論文 参考訳(メタデータ) (2023-04-03T13:13:19Z) - Modality-Agnostic Variational Compression of Implicit Neural
Representations [96.35492043867104]
Inlicit Neural Representation (INR) としてパラメータ化されたデータの関数的ビューに基づくモーダリティ非依存型ニューラル圧縮アルゴリズムを提案する。
潜時符号化と疎性の間のギャップを埋めて、ソフトゲーティング機構に非直線的にマッピングされたコンパクト潜時表現を得る。
このような潜在表現のデータセットを得た後、ニューラル圧縮を用いてモーダリティ非依存空間におけるレート/歪みトレードオフを直接最適化する。
論文 参考訳(メタデータ) (2023-01-23T15:22:42Z) - Bayesian Nonparametric Submodular Video Partition for Robust Anomaly
Detection [9.145168943972067]
MIL(Multiple-instance Learning)は、ビデオ異常検出問題に対処するための効果的な方法である。
我々は,MILモデルトレーニングを大幅に改善するために,新しいベイズ非パラメトリックサブモジュールビデオ分割(BN-SVP)を提案する。
我々の理論解析は,提案アルゴリズムの性能保証を確実にする。
論文 参考訳(メタデータ) (2022-03-24T04:00:49Z) - Non-Gaussian Gaussian Processes for Few-Shot Regression [71.33730039795921]
乱変数ベクトルの各成分上で動作し,パラメータを全て共有する可逆なODEベースのマッピングを提案する。
NGGPは、様々なベンチマークとアプリケーションに対する競合する最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2021-10-26T10:45:25Z) - Multi-Facet Clustering Variational Autoencoders [9.150555507030083]
画像などの高次元データは通常、クラスタリング可能な複数の興味深い特徴を特徴付ける。
MFCVAE(Multi-Facet Clustering Variational Autoencoders)を導入する。
MFCVAEは複数のクラスタリングを同時に学習し、完全に教師なしでエンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2021-06-09T17:36:38Z) - Consistency Regularization for Variational Auto-Encoders [14.423556966548544]
変分自動エンコーダ(VAE)は教師なし学習の強力なアプローチである。
本稿では,VAEの整合性を強制する正規化手法を提案する。
論文 参考訳(メタデータ) (2021-05-31T10:26:32Z) - Autoencoding Variational Autoencoder [56.05008520271406]
我々は,この行動が学習表現に与える影響と,自己整合性の概念を導入することでそれを修正する結果について検討する。
自己整合性アプローチで訓練されたエンコーダは、敵攻撃による入力の摂動に対して頑健な(無神経な)表現につながることを示す。
論文 参考訳(メタデータ) (2020-12-07T14:16:14Z) - On the Encoder-Decoder Incompatibility in Variational Text Modeling and
Beyond [82.18770740564642]
変分オートエンコーダ(VAE)は、潜時変数と償却変分推論を結合する。
我々は,データ多様体のパラメータ化が不十分なエンコーダ・デコーダの不整合性を観察する。
同一構造を持つ決定論的オートエンコーダとVAEモデルを結合した結合型VAEを提案する。
論文 参考訳(メタデータ) (2020-04-20T10:34:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。