論文の概要: Learning Sequential Latent Variable Models from Multimodal Time Series
Data
- arxiv url: http://arxiv.org/abs/2204.10419v1
- Date: Thu, 21 Apr 2022 21:59:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-25 12:38:56.720274
- Title: Learning Sequential Latent Variable Models from Multimodal Time Series
Data
- Title(参考訳): 時系列データを用いた連続潜時変動モデルの学習
- Authors: Oliver Limoyo, Trevor Ablett, and Jonathan Kelly
- Abstract要約: マルチモーダルデータの確率的潜在状態表現を協調的に学習するための自己教師付き生成モデリングフレームワークを提案する。
提案手法が予測品質と表現品質を大幅に向上させることを示す。
- 参考スコア(独自算出の注目度): 6.107812768939553
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sequential modelling of high-dimensional data is an important problem that
appears in many domains including model-based reinforcement learning and
dynamics identification for control. Latent variable models applied to
sequential data (i.e., latent dynamics models) have been shown to be a
particularly effective probabilistic approach to solve this problem, especially
when dealing with images. However, in many application areas (e.g., robotics),
information from multiple sensing modalities is available -- existing latent
dynamics methods have not yet been extended to effectively make use of such
multimodal sequential data. Multimodal sensor streams can be correlated in a
useful manner and often contain complementary information across modalities. In
this work, we present a self-supervised generative modelling framework to
jointly learn a probabilistic latent state representation of multimodal data
and the respective dynamics. Using synthetic and real-world datasets from a
multimodal robotic planar pushing task, we demonstrate that our approach leads
to significant improvements in prediction and representation quality.
Furthermore, we compare to the common learning baseline of concatenating each
modality in the latent space and show that our principled probabilistic
formulation performs better. Finally, despite being fully self-supervised, we
demonstrate that our method is nearly as effective as an existing supervised
approach that relies on ground truth labels.
- Abstract(参考訳): 高次元データの逐次モデリングは、モデルに基づく強化学習や制御のための動的識別を含む多くの領域に現れる重要な問題である。
逐次データに適用される潜時変数モデル(すなわち潜時力学モデル)は、特に画像を扱う場合、この問題を解決するための特に効果的な確率論的アプローチであることが示されている。
しかし、多くのアプリケーション領域(例えばロボティクス)では、複数のセンシングモードからの情報は利用可能であり、既存の潜在力学手法はまだ、そのようなマルチモーダルシーケンシャルデータを効果的に活用するために拡張されていない。
マルチモーダルセンサストリームは有用な方法で相関し、しばしばモダリティの相補的な情報を含む。
本稿では,マルチモーダルデータの確率的潜在状態表現と各ダイナミクスを共同で学習するための自己教師付き生成モデリングフレームワークを提案する。
マルチモーダルロボット平面プッシュタスクによる合成および実世界のデータセットを用いて,提案手法が予測と表現品質を大幅に改善することを示す。
さらに,潜在空間における各モダリティを結合する共通学習ベースラインと比較し,その原理的確率的定式化が有効であることを示す。
最後に,完全自己教師型であるにもかかわらず,本手法は,基礎的真理ラベルに依存する既存の教師付きアプローチと同じくらい効果的であることを示す。
関連論文リスト
- Learning Multimodal Latent Generative Models with Energy-Based Prior [3.6648642834198797]
EBMに潜時生成モデルを統合する新しいフレームワークを提案する。
このアプローチは、より表現力があり、情報的であり、複数のモダリティにまたがる情報のより良いキャプチャをもたらす。
論文 参考訳(メタデータ) (2024-09-30T01:38:26Z) - Missing Modality Prediction for Unpaired Multimodal Learning via Joint Embedding of Unimodal Models [6.610033827647869]
実世界のシナリオでは、完全なマルチモーダルデータを一貫して取得することは重大な課題である。
これはしばしば、特定のモダリティのデータが欠落しているモダリティの問題につながる。
自己教師型共同埋め込み学習手法を用いて, パラメータ効率のよい未学習モデルの微調整を行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-17T14:44:25Z) - MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild [81.32127423981426]
実世界のアプリケーションでは,音声およびビデオデータに基づくマルチモーダル感情認識が重要である。
近年の手法は、強力なマルチモーダルエンコーダの事前学習に自己教師付き学習(SSL)の進歩を活用することに重点を置いている。
SSL-pre-trained disimodal encoders を用いて,この問題に対する異なる視点とマルチモーダル DFER の性能向上について検討する。
論文 参考訳(メタデータ) (2024-04-13T13:39:26Z) - Latent variable model for high-dimensional point process with structured missingness [4.451479907610764]
縦断データは医療、社会学、地震学など多くの分野で重要である。
実世界のデータセットは高次元であり、構造化された欠陥パターンを含み、測定時間ポイントは未知のプロセスによって管理される。
これらの制限に対処可能な、柔軟で効率的な潜在変数モデルを提案する。
論文 参考訳(メタデータ) (2024-02-08T15:41:48Z) - Leveraging Diffusion Disentangled Representations to Mitigate Shortcuts
in Underspecified Visual Tasks [92.32670915472099]
拡散確率モデル(DPM)を用いた合成カウンターファクトの生成を利用したアンサンブルの多様化フレームワークを提案する。
拡散誘導型分散化は,データ収集を必要とする従来の手法に匹敵するアンサンブル多様性を達成し,ショートカットからの注意を回避できることを示す。
論文 参考訳(メタデータ) (2023-10-03T17:37:52Z) - StableLLaVA: Enhanced Visual Instruction Tuning with Synthesized
Image-Dialogue Data [129.92449761766025]
本稿では,視覚的インストラクションチューニングのための画像と対話を同期的に合成する新しいデータ収集手法を提案する。
このアプローチは生成モデルのパワーを活用し、ChatGPTとテキスト・ツー・イメージ生成モデルの能力とを結合する。
本研究は,各種データセットを対象とした総合的な実験を含む。
論文 参考訳(メタデータ) (2023-08-20T12:43:52Z) - Learning Latent Dynamics via Invariant Decomposition and
(Spatio-)Temporal Transformers [0.6767885381740952]
本研究では,高次元経験データから力学系を学習する手法を提案する。
我々は、システムの複数の異なるインスタンスからデータが利用できる設定に焦点を当てる。
我々は、単純な理論的分析と、合成および実世界のデータセットに関する広範な実験を通して行動を研究する。
論文 参考訳(メタデータ) (2023-06-21T07:52:07Z) - Multi-scale Attention Flow for Probabilistic Time Series Forecasting [68.20798558048678]
マルチスケールアテンション正規化フロー(MANF)と呼ばれる非自己回帰型ディープラーニングモデルを提案する。
我々のモデルは累積誤差の影響を回避し、時間の複雑さを増大させない。
本モデルは,多くの多変量データセット上での最先端性能を実現する。
論文 参考訳(メタデータ) (2022-05-16T07:53:42Z) - Relating by Contrasting: A Data-efficient Framework for Multimodal
Generative Models [86.9292779620645]
生成モデル学習のための対照的なフレームワークを開発し、モダリティ間の共通性だけでなく、「関連」と「関連しない」マルチモーダルデータの区別によってモデルを訓練することができる。
提案手法では, 生成モデルを用いて, 関係のないサンプルから関連サンプルを正確に識別し, ラベルのない多モードデータの利用が可能となる。
論文 参考訳(メタデータ) (2020-07-02T15:08:11Z) - Variational Hyper RNN for Sequence Modeling [69.0659591456772]
本稿では,時系列データにおける高変数の取得に優れる新しい確率的シーケンスモデルを提案する。
提案手法では,時間潜時変数を用いて基礎となるデータパターンに関する情報をキャプチャする。
提案手法の有効性を,合成および実世界のシーケンシャルデータに示す。
論文 参考訳(メタデータ) (2020-02-24T19:30:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。