論文の概要: Frequency-Aware Masked Autoencoders for Multimodal Pretraining on
Biosignals
- arxiv url: http://arxiv.org/abs/2309.05927v1
- Date: Tue, 12 Sep 2023 02:59:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-13 14:31:06.643573
- Title: Frequency-Aware Masked Autoencoders for Multimodal Pretraining on
Biosignals
- Title(参考訳): 生体信号におけるマルチモーダルプリトレーニングのための周波数アウェアマスクオートエンコーダ
- Authors: Ran Liu, Ellen L. Zippi, Hadi Pouransari, Chris Sandino, Jingping Nie,
Hanlin Goh, Erdrin Azemi, Ali Moin
- Abstract要約: 周波数空間における生体信号の表現をパラメータ化することを学ぶ周波数対応マスク付きオートエンコーダを提案する。
得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、テスト時に様々なタスクやモダリティにシームレスに適応できる。
- 参考スコア(独自算出の注目度): 7.658838066222352
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging multimodal information from biosignals is vital for building a
comprehensive representation of people's physical and mental states. However,
multimodal biosignals often exhibit substantial distributional shifts between
pretraining and inference datasets, stemming from changes in task specification
or variations in modality compositions. To achieve effective pretraining in the
presence of potential distributional shifts, we propose a frequency-aware
masked autoencoder ($\texttt{bio}$FAME) that learns to parameterize the
representation of biosignals in the frequency space. $\texttt{bio}$FAME
incorporates a frequency-aware transformer, which leverages a fixed-size
Fourier-based operator for global token mixing, independent of the length and
sampling rate of inputs. To maintain the frequency components within each input
channel, we further employ a frequency-maintain pretraining strategy that
performs masked autoencoding in the latent space. The resulting architecture
effectively utilizes multimodal information during pretraining, and can be
seamlessly adapted to diverse tasks and modalities at test time, regardless of
input size and order. We evaluated our approach on a diverse set of transfer
experiments on unimodal time series, achieving an average of $\uparrow$5.5%
improvement in classification accuracy over the previous state-of-the-art.
Furthermore, we demonstrated that our architecture is robust in modality
mismatch scenarios, including unpredicted modality dropout or substitution,
proving its practical utility in real-world applications. Code will be
available soon.
- Abstract(参考訳): 生体信号からのマルチモーダル情報を活用することは、人々の身体状態と精神状態の包括的表現を構築する上で不可欠である。
しかしながら、マルチモーダルバイオシグナールは、タスク仕様の変更やモダリティ構成の変化に起因する、事前学習と推論データセットの間のかなりの分布シフトを示すことが多い。
分布シフトが存在する場合に効果的な事前学習を実現するために,周波数空間における生体信号表現のパラメータ化を学習する周波数対応マスクオートエンコーダ(\textt{bio}$fame)を提案する。
$\texttt{bio}$FAMEは、大域的なトークンの混合に固定サイズのフーリエ演算子を利用する周波数認識変換器を組み込んでいる。
各入力チャネル内の周波数成分を維持するために、潜在空間でマスキングオートエンコーディングを行う周波数維持プリトレーニング戦略も採用する。
得られたアーキテクチャは、事前トレーニング中にマルチモーダル情報を効果的に利用し、入力サイズや順序に関わらず、テスト時に様々なタスクやモダリティにシームレスに適応することができる。
我々は、単調な時系列上での様々な転送実験に対するアプローチを評価し、以前の最先端技術よりも平均$$5.5%の分類精度の向上を実現した。
さらに,我々のアーキテクチャは,予測不能なモーダリティドロップアウトや置換を含むモダリティミスマッチシナリオにおいて堅牢であり,実世界のアプリケーションで実用性が証明できることを示した。
コードはもうすぐ入手できる。
関連論文リスト
- Multi-Source and Test-Time Domain Adaptation on Multivariate Signals using Spatio-Temporal Monge Alignment [59.75420353684495]
コンピュータビジョンやバイオメディカルデータなどの信号に対する機械学習の応用は、ハードウェアデバイスやセッション記録にまたがる変動のため、しばしば課題に直面している。
本研究では,これらの変動を緩和するために,時空間モンジュアライメント(STMA)を提案する。
我々はSTMAが、非常に異なる設定で取得したデータセット間で、顕著で一貫したパフォーマンス向上をもたらすことを示す。
論文 参考訳(メタデータ) (2024-07-19T13:33:38Z) - Frequency-Aware Deepfake Detection: Improving Generalizability through
Frequency Space Learning [81.98675881423131]
この研究は、目に見えないディープフェイク画像を効果的に識別できるユニバーサルディープフェイク検出器を開発するという課題に対処する。
既存の周波数ベースのパラダイムは、偽造検出のためにGANパイプラインのアップサンプリング中に導入された周波数レベルのアーティファクトに依存している。
本稿では、周波数領域学習を中心にしたFreqNetと呼ばれる新しい周波数認識手法を導入し、ディープフェイク検出器の一般化性を高めることを目的とする。
論文 参考訳(メタデータ) (2024-03-12T01:28:00Z) - MultiWave: Multiresolution Deep Architectures through Wavelet
Decomposition for Multivariate Time Series Prediction [6.980076213134384]
MultiWaveは、信号の固有周波数で動作するコンポーネントを組み込むことで、ディープラーニング時系列モデルを強化する新しいフレームワークである。
我々は、MultiWaveが重要な特徴とその周波数成分を一貫して識別し、研究対象のアプリケーションに対する貴重な洞察を提供することを示す。
論文 参考訳(メタデータ) (2023-06-16T20:07:15Z) - BIOT: Cross-data Biosignal Learning in the Wild [36.22753628246332]
バイオシグナーの現在のディープラーニングモデルは、通常、特定のデータセットと臨床設定に特化している。
メソッドモデルは汎用的で、異なるデータセットにわたる様々な生体信号学習設定に適用できる。
論文 参考訳(メタデータ) (2023-05-10T19:26:58Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Decision Forest Based EMG Signal Classification with Low Volume Dataset
Augmented with Random Variance Gaussian Noise [51.76329821186873]
我々は6種類の手振りを限定的なサンプル数で分類できるモデルを作成し、より広い聴衆によく一般化する。
信号のランダムなバウンドの使用など、より基本的な手法のセットにアピールするが、これらの手法がオンライン環境で持てる力を示したいと考えている。
論文 参考訳(メタデータ) (2022-06-29T23:22:18Z) - PILOT: Introducing Transformers for Probabilistic Sound Event
Localization [107.78964411642401]
本稿では,受信したマルチチャンネル音声信号の時間的依存性を自己アテンション機構によってキャプチャする,トランスフォーマーに基づく新しい音声イベント定位フレームワークを提案する。
このフレームワークは, 公開されている3つの音声イベントローカライズデータセットを用いて評価し, 局所化誤差と事象検出精度の点で最先端の手法と比較した。
論文 参考訳(メタデータ) (2021-06-07T18:29:19Z) - Discriminative Singular Spectrum Classifier with Applications on
Bioacoustic Signal Recognition [67.4171845020675]
分析や分類に有用な特徴を効率的に抽出する識別機構を備えた生体音響信号分類器を提案する。
タスク指向の現在のバイオ音響認識法とは異なり、提案モデルは入力信号をベクトル部分空間に変換することに依存する。
提案法の有効性は,アヌラン,ミツバチ,蚊の3種の生物音響データを用いて検証した。
論文 参考訳(メタデータ) (2021-03-18T11:01:21Z) - Multi-stream Convolutional Neural Network with Frequency Selection for
Robust Speaker Verification [2.3437178262034095]
マルチストリーム畳み込みニューラルネットワーク(CNN)による話者検証のための新しいフレームワークを提案する。
提案フレームワークは,複数のストリームから発生する多様な時間的埋め込みに対応し,音響モデリングの堅牢性を高める。
voxcelebデータセットの広範な実験を行い,マルチストリームcnnが単一ストリームベースラインを大きく上回ることを示した。
論文 参考訳(メタデータ) (2020-12-21T07:23:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。