論文の概要: Self-Supervised Multimodal Fusion Transformer for Passive Activity
Recognition
- arxiv url: http://arxiv.org/abs/2209.03765v1
- Date: Mon, 15 Aug 2022 15:38:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-11 13:19:34.129137
- Title: Self-Supervised Multimodal Fusion Transformer for Passive Activity
Recognition
- Title(参考訳): パッシブアクティビティ認識のための自己教師付きマルチモーダル核融合トランス
- Authors: Armand K. Koupai, Mohammud J. Bocus, Raul Santos-Rodriguez, Robert J.
Piechocki, Ryan McConville
- Abstract要約: Wi-Fi信号は、医療などの分野において、人間の知覚と活動認識に重要な機会を提供する。
現在のシステムでは、複数のセンサーから取得した情報を効果的に利用して、異なるアクティビティを認識することはできない。
本稿では,マルチモーダル・マルチセンサ融合のための注意モデルであるFusion Transformerを提案する。
- 参考スコア(独自算出の注目度): 2.35066982314539
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The pervasiveness of Wi-Fi signals provides significant opportunities for
human sensing and activity recognition in fields such as healthcare. The
sensors most commonly used for passive Wi-Fi sensing are based on passive Wi-Fi
radar (PWR) and channel state information (CSI) data, however current systems
do not effectively exploit the information acquired through multiple sensors to
recognise the different activities. In this paper, we explore new properties of
the Transformer architecture for multimodal sensor fusion. We study different
signal processing techniques to extract multiple image-based features from PWR
and CSI data such as spectrograms, scalograms and Markov transition field
(MTF). We first propose the Fusion Transformer, an attention-based model for
multimodal and multi-sensor fusion. Experimental results show that our Fusion
Transformer approach can achieve competitive results compared to a ResNet
architecture but with much fewer resources. To further improve our model, we
propose a simple and effective framework for multimodal and multi-sensor
self-supervised learning (SSL). The self-supervised Fusion Transformer
outperforms the baselines, achieving a F1-score of 95.9%. Finally, we show how
this approach significantly outperforms the others when trained with as little
as 1% (2 minutes) of labelled training data to 20% (40 minutes) of labelled
training data.
- Abstract(参考訳): Wi-Fi信号の広範性は、医療などの分野における人間の知覚と活動認識に重要な機会を与える。
受動的Wi-Fiセンシングに最もよく使用されるセンサーは、受動的Wi-Fiレーダ(PWR)とチャネル状態情報(CSI)データに基づいているが、現在のシステムは複数のセンサから取得した情報を効果的に利用して、異なるアクティビティを認識する。
本稿では,マルチモーダルセンサ融合のためのTransformerアーキテクチャの新たな特性について検討する。
本研究では,pwrおよびcsiデータからスペクトル,スカルグラム,マルコフ遷移場(mtf)などの複数の画像に基づく特徴を抽出するための信号処理手法について検討した。
まず,マルチモーダル・マルチセンサ融合のための注意モデルであるFusion Transformerを提案する。
実験の結果,我々のFusion TransformerアプローチはResNetアーキテクチャと比較して競合的な結果が得られるが,リソースははるかに少ないことがわかった。
モデルをさらに改良するため,マルチモーダル・マルチセンサ型自己教師型学習(SSL)のためのシンプルで効果的なフレームワークを提案する。
自監督型のFusion Transformerはベースラインを上回り、F1スコアは95.9%である。
最後に、ラベル付きトレーニングデータの1% (2分) をラベル付きトレーニングデータの20% (40分) に抑えることで、このアプローチが他のトレーニングを著しく上回っていることを示す。
関連論文リスト
- SeaDATE: Remedy Dual-Attention Transformer with Semantic Alignment via Contrast Learning for Multimodal Object Detection [18.090706979440334]
マルチモーダルオブジェクト検出は、様々なモーダル情報を活用して、検出器の精度と堅牢性を高める。
現在の方法では、トランスフォーマー誘導核融合技術は、ネットワークの様々な深さ層における特徴を抽出する能力を探ることなく、単純にスタック化されている。
本論文では,SeaDATEと呼ばれる高精度かつ効率的な物体検出手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:26:39Z) - Rethinking Transformers Pre-training for Multi-Spectral Satellite
Imagery [78.43828998065071]
教師なし学習の最近の進歩は、下流タスクにおける有望な結果を達成するための大きな視覚モデルの可能性を示している。
このような事前学習技術は、大量の未学習データが利用可能であることから、リモートセンシング領域でも最近研究されている。
本稿では,マルチモーダルで効果的に活用されるマルチスケール情報の事前学習と活用について述べる。
論文 参考訳(メタデータ) (2024-03-08T16:18:04Z) - Affine-Consistent Transformer for Multi-Class Cell Nuclei Detection [76.11864242047074]
本稿では, 原子核位置を直接生成する新しいアフィン一貫性変換器 (AC-Former) を提案する。
本稿では,AAT (Adaptive Affine Transformer) モジュールを導入し,ローカルネットワークトレーニングのためのオリジナル画像をワープするための重要な空間変換を自動学習する。
実験結果から,提案手法は様々なベンチマークにおいて既存の最先端アルゴリズムを著しく上回ることがわかった。
論文 参考訳(メタデータ) (2023-10-22T02:27:02Z) - Multi-scale Transformer-based Network for Emotion Recognition from Multi
Physiological Signals [11.479653866646762]
本稿では,生理学的データから感情認識を行うためのマルチスケールトランスフォーマーを用いた効率的な手法を提案する。
我々のアプローチは、内部信号と人間の感情の関係を確立するために、データのスケーリングと組み合わせたマルチモーダル手法を適用することである。
EPiCコンペティションのCASEデータセットでは,RMSEスコアが1.45。
論文 参考訳(メタデータ) (2023-05-01T11:10:48Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Robust Multimodal Fusion for Human Activity Recognition [5.858726030608716]
本稿では,データ品質問題に対して堅牢なHARのためのマルチモーダル融合モデルであるCentaurを提案する。
Centaurデータクリーニングモジュールは、2つの最先端のオートエンコーダベースのモデルより優れ、そのマルチモーダル融合モジュールは4つの強いベースラインより優れている。
2つの関連する堅牢な融合アーキテクチャと比較して、Centaurはより堅牢であり、HARでは11.59-17.52%高い精度を達成している。
論文 参考訳(メタデータ) (2023-03-08T14:56:11Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - UMSNet: An Universal Multi-sensor Network for Human Activity Recognition [10.952666953066542]
本稿では,人間行動認識のためのユニバーサルマルチセンサネットワーク(UMSNet)を提案する。
特に,新しい軽量センサ残差ブロック(LSRブロック)を提案する。
我々のフレームワークは明確な構造を持ち、様々な種類のマルチモーダル時系列分類タスクに直接適用することができる。
論文 参考訳(メタデータ) (2022-05-24T03:29:54Z) - Robust Semi-supervised Federated Learning for Images Automatic
Recognition in Internet of Drones [57.468730437381076]
プライバシー保護型UAV画像認識のための半教師付きフェデレートラーニング(SSFL)フレームワークを提案する。
異なるカメラモジュールを使用したUAVによって収集されたローカルデータの数、特徴、分布には大きな違いがある。
本稿では,クライアントがトレーニングに参加する頻度,すなわちFedFreqアグリゲーションルールに基づくアグリゲーションルールを提案する。
論文 参考訳(メタデータ) (2022-01-03T16:49:33Z) - Cross-Modality Fusion Transformer for Multispectral Object Detection [0.0]
マルチスペクトル画像ペアは、組み合わせた情報を提供し、オブジェクト検出アプリケーションがより信頼性が高く、堅牢になる。
本論文では,CFT (Cross-Modality Fusion Transformer) という,単純かつ効果的なクロスモーダル機能融合手法を提案する。
論文 参考訳(メタデータ) (2021-10-30T15:34:12Z) - Vision Transformers are Robust Learners [65.91359312429147]
ビジョントランスフォーマー(ViT)の一般的な腐敗や摂動、分布シフト、自然逆転例に対する堅牢性について検討します。
ViTsが実際により堅牢な学習者である理由を説明するために、定量的および定性的な指標を提供する分析を提示します。
論文 参考訳(メタデータ) (2021-05-17T02:39:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。