論文の概要: FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space
- arxiv url: http://arxiv.org/abs/2310.20071v1
- Date: Mon, 30 Oct 2023 22:55:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 17:11:49.801850
- Title: FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space
- Title(参考訳): FOCAL: 直交遅延空間におけるマルチモーダル時系列センシング信号のコントラスト学習
- Authors: Shengzhong Liu, Tomoyoshi Kimura, Dongxin Liu, Ruijie Wang, Jinyang
Li, Suhas Diggavi, Mani Srivastava, Tarek Abdelzaher
- Abstract要約: 本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
- 参考スコア(独自算出の注目度): 7.324708513042455
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a novel contrastive learning framework, called FOCAL, for
extracting comprehensive features from multimodal time-series sensing signals
through self-supervised training. Existing multimodal contrastive frameworks
mostly rely on the shared information between sensory modalities, but do not
explicitly consider the exclusive modality information that could be critical
to understanding the underlying sensing physics. Besides, contrastive
frameworks for time series have not handled the temporal information locality
appropriately. FOCAL solves these challenges by making the following
contributions: First, given multimodal time series, it encodes each modality
into a factorized latent space consisting of shared features and private
features that are orthogonal to each other. The shared space emphasizes feature
patterns consistent across sensory modalities through a modal-matching
objective. In contrast, the private space extracts modality-exclusive
information through a transformation-invariant objective. Second, we propose a
temporal structural constraint for modality features, such that the average
distance between temporally neighboring samples is no larger than that of
temporally distant samples. Extensive evaluations are performed on four
multimodal sensing datasets with two backbone encoders and two classifiers to
demonstrate the superiority of FOCAL. It consistently outperforms the
state-of-the-art baselines in downstream tasks with a clear margin, under
different ratios of available labels. The code and self-collected dataset are
available at https://github.com/tomoyoshki/focal.
- Abstract(参考訳): 本稿では,マルチモーダル時系列センシング信号から自己教師付き学習を通して包括的特徴を抽出するための,新しいコントラスト学習フレームワークfocalを提案する。
既存のマルチモーダルコントラストフレームワークは、主に感覚モダリティ間の共有情報に依存しているが、基礎となるセンシング物理学を理解する上で重要な排他的モダリティ情報を明示的に考慮していない。
さらに、時系列の対照的なフレームワークは時間的情報の局所性を適切に扱っていない。
第一に、マルチモーダル時系列が与えられたとき、各モードは互いに直交する共有特徴とプライベート特徴からなる因子化された潜在空間に符号化される。
共有空間は、モーダルマッチングの目的を通じて、感覚的モダリティ間で一貫性のある特徴パターンを強調する。
対照的に、プライベート空間は変換不変目的を通じてモダリティ排他的情報を抽出する。
第2に,時間的近接サンプル間の平均距離が時間的遠方サンプルよりも大きくなるような時間的構造的制約を提案する。
2つのバックボーンエンコーダと2つの分類器を備えた4つのマルチモーダルセンシングデータセットで広範な評価を行い、焦点の優位を示す。
ダウンストリームタスクにおける最先端のベースラインを、利用可能なラベルの異なる比率で、明確なマージンで一貫して上回る。
コードと自己収集したデータセットは、https://github.com/tomoyoshki/focal.comで入手できる。
関連論文リスト
- GSSF: Generalized Structural Sparse Function for Deep Cross-modal Metric Learning [51.677086019209554]
ペアワイド類似性学習のためのモダリティ間の強力な関係を捕捉する汎用構造スパースを提案する。
距離メートル法は、対角線とブロック対角線の2つの形式を微妙にカプセル化する。
クロスモーダルと2つの余分なユニモーダル検索タスクの実験は、その優位性と柔軟性を検証した。
論文 参考訳(メタデータ) (2024-10-20T03:45:50Z) - Semantic-Guided Multimodal Sentiment Decoding with Adversarial Temporal-Invariant Learning [22.54577327204281]
マルチモーダル感情分析は、異なるモダリティから表現を学習し、人間の感情を識別することを目的としている。
既存の作品は、連続した時系列に固有のフレームレベルの冗長性を無視することが多く、ノイズを伴う不完全なモジュラリティ表現をもたらす。
本研究では,時間段階の分布変動を制約し,時間的時間的変動を効果的に捉えた時間的不変学習を提案する。
論文 参考訳(メタデータ) (2024-08-30T03:28:40Z) - Multimodal generative semantic communication based on latent diffusion model [13.035207938169844]
本稿では,mm-GESCOというマルチモーダル・ジェネリック・セマンティック・コミュニケーション・フレームワークを提案する。
このフレームワークは、可視および赤外線モダル画像データのストリームを取り込み、融合したセマンティックセグメンテーションマップを生成して送信する。
受信終了時に、このフレームワークはセマンティックマップに基づいて、元のマルチモーダルイメージを再構築することができる。
論文 参考訳(メタデータ) (2024-08-10T06:23:41Z) - Leveraging 2D Information for Long-term Time Series Forecasting with Vanilla Transformers [55.475142494272724]
時系列予測は、様々な領域における複雑な力学の理解と予測に不可欠である。
GridTSTは、革新的な多方向性の注意を用いた2つのアプローチの利点を組み合わせたモデルである。
このモデルは、さまざまな現実世界のデータセットに対して、常に最先端のパフォーマンスを提供する。
論文 参考訳(メタデータ) (2024-05-22T16:41:21Z) - Spatial-Temporal Decoupling Contrastive Learning for Skeleton-based
Human Action Recognition [10.403751563214113]
STD-CLは、配列から識別的および意味的に異なる表現を得るためのフレームワークである。
STD-CLは、NTU60、NTU120、NW-UCLAベンチマークでしっかりと改善されている。
論文 参考訳(メタデータ) (2023-12-23T02:54:41Z) - Graph-Aware Contrasting for Multivariate Time-Series Classification [50.84488941336865]
既存のコントラスト学習手法は主に、時間的拡張とコントラスト技術による時間的一貫性を達成することに焦点を当てている。
MTSデータ間の空間的整合性を考慮したグラフ認識コントラストを提案する。
提案手法は,様々なMSS分類タスクにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2023-09-11T02:35:22Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z) - Robust Detection of Lead-Lag Relationships in Lagged Multi-Factor Models [61.10851158749843]
データ固有のリード-ラグ関係を発見することで、重要な洞察を得ることができる。
階層化多要素モデルにおけるリードラグ関係のロバスト検出のためのクラスタリング駆動手法を開発した。
論文 参考訳(メタデータ) (2023-05-11T10:30:35Z) - Learning Appearance-motion Normality for Video Anomaly Detection [11.658792932975652]
時空間記憶を付加した2ストリーム自動エンコーダフレームワークを提案する。
見た目の正常さと動きの正常さを独立に学習し、敵の学習を通して相関関係を探索する。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2とCUHK Avenueのデータセットで98.1%、89.8%のAUCを実現している。
論文 参考訳(メタデータ) (2022-07-27T08:30:19Z) - Unsupervised Representation Learning for Time Series with Temporal
Neighborhood Coding [8.45908939323268]
非定常時系列に対する一般化可能な表現を学習するための自己教師型フレームワークを提案する。
我々のモチベーションは、時系列データの動的性質をモデル化する能力が特に有用である医療分野に起因している。
論文 参考訳(メタデータ) (2021-06-01T19:53:24Z) - Connecting the Dots: Multivariate Time Series Forecasting with Graph
Neural Networks [91.65637773358347]
多変量時系列データに特化して設計された汎用グラフニューラルネットワークフレームワークを提案する。
グラフ学習モジュールを用いて,変数間の一方向関係を自動的に抽出する。
提案手法は,4つのベンチマークデータセットのうち3つにおいて,最先端のベースライン手法よりも優れている。
論文 参考訳(メタデータ) (2020-05-24T04:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。