論文の概要: Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data
- arxiv url: http://arxiv.org/abs/2509.00221v2
- Date: Mon, 20 Oct 2025 17:27:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:38.531959
- Title: Speech Foundation Models Generalize to Time Series Tasks from Wearable Sensor Data
- Title(参考訳): ウェアラブルセンサデータから時系列タスクに一般化した音声基礎モデル
- Authors: Jaya Narain, Zakaria Aldeneh, Shirley Ren,
- Abstract要約: 音声基礎モデルは、音声領域を超えて一般化する表現を学習することを示す。
音声モデルの畳み込み特徴エンコーダは,ウェアラブルセンサアプリケーションにおいて特に有用であることがわかった。
- 参考スコア(独自算出の注目度): 6.923084335113569
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Both speech and sensor time series data encode information in both the time- and frequency- domains, like spectral powers and waveform shapelets. We show that speech foundation models learn representations that generalize beyond the speech domain and achieve state-of-the-art performance on diverse time-series tasks from wearable sensors. Probes trained on features extracted from HuBERT and wav2vec 2.0 outperform those extracted from self-supervised models trained directly on modality-specific datasets for mood classification, arrhythmia detection, and activity classification tasks. We find that the convolutional feature encoders of speech models are particularly relevant for wearable sensor applications. The proposed approach enhances performance on data-scarce time-series tasks using simple probing methods. This work takes a step toward developing generalized time-series models that unify speech and sensor modalities.
- Abstract(参考訳): 音声とセンサの時系列データの両方が、スペクトルパワーや波形整形子のような時間領域と周波数領域の両方の情報を符号化する。
音声基礎モデルは,音声領域を超えて一般化された表現を学習し,ウェアラブルセンサからの多様な時系列タスクにおける最先端のパフォーマンスを実現する。
HuBERTとwav2vec 2.0から抽出された特徴に基づいて訓練されたプローブは、気分分類、不整脈検出、活動分類タスクを直接訓練した自己教師付きモデルから抽出した特徴より優れていた。
音声モデルの畳み込み特徴エンコーダは,ウェアラブルセンサアプリケーションにおいて特に有用であることがわかった。
提案手法は, 単純な探索手法を用いて, 時系列タスクの性能を向上させる。
この研究は、音声とセンサのモダリティを統一する一般化された時系列モデルの開発に向けて一歩前進する。
関連論文リスト
- FreRA: A Frequency-Refined Augmentation for Contrastive Learning on Time Series Classification [56.925103708982164]
周波数領域からの新たな視点を示し、ダウンストリーム分類の利点として、グローバル、独立、コンパクトの3つを識別する。
本稿では,分類タスクにおける時系列のコントラスト学習に適した,軽量で効果的な周波数補充拡張(FreRA)を提案する。
FreRAは、時系列分類、異常検出、転送学習タスクにおいて、常に10つの主要なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-05-29T07:18:28Z) - SensorQA: A Question Answering Benchmark for Daily-Life Monitoring [1.925154869666529]
SensorQAは、日常生活監視のための長期時系列センサデータのための人為的な質問応答データセットである。
このデータセット上で、最先端AIモデルのベンチマークを確立し、典型的なエッジデバイス上でのパフォーマンスを評価する。
我々の結果は、現在のモデルと最適なQAパフォーマンスと効率のギャップを明らかにし、新しいコントリビューションの必要性を強調します。
論文 参考訳(メタデータ) (2025-01-09T05:06:44Z) - Enhancing Foundation Models for Time Series Forecasting via Wavelet-based Tokenization [74.3339999119713]
我々はウェーブレットベースのトークンーザを開発し、時間局所化周波数の空間でモデルが複雑な表現を直接学習できるようにする。
提案手法は,まず入力時系列をスケール・分解し,次に閾値を設定し,ウェーブレット係数を定量化し,最後に予測水平方向の係数を予測する自己回帰モデルを事前学習する。
論文 参考訳(メタデータ) (2024-12-06T18:22:59Z) - Scaling Wearable Foundation Models [54.93979158708164]
センサ基礎モデルのスケーリング特性を計算,データ,モデルサイズにわたって検討する。
最大4000万時間分の心拍数、心拍変動、心電図活動、加速度計、皮膚温度、および1分間のデータを用いて、私たちはLSMを作成します。
この結果から,LSMのスケーリング法則は,時間とセンサの両面において,計算や外挿などのタスクに対して確立されている。
論文 参考訳(メタデータ) (2024-10-17T15:08:21Z) - DynImp: Dynamic Imputation for Wearable Sensing Data Through Sensory and
Temporal Relatedness [78.98998551326812]
従来の手法では、データの時系列ダイナミクスと、異なるセンサーの特徴の関連性の両方をめったに利用していない、と我々は主張する。
我々はDynImpと呼ばれるモデルを提案し、特徴軸に沿って近接する隣人と異なる時間点の欠如を扱う。
本手法は, 関連センサのマルチモーダル性特性を活かし, 履歴時系列のダイナミックスから学習し, 極端に欠落した状態でデータを再構築することができることを示す。
論文 参考訳(メタデータ) (2022-09-26T21:59:14Z) - Voice2Series: Reprogramming Acoustic Models for Time Series
Classification [65.94154001167608]
Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
論文 参考訳(メタデータ) (2021-06-17T07:59:15Z) - PSEUDo: Interactive Pattern Search in Multivariate Time Series with
Locality-Sensitive Hashing and Relevance Feedback [3.347485580830609]
PSEUDoは、マルチトラックシーケンシャルデータにおける視覚パターンを探索するための適応的機能学習技術である。
提案アルゴリズムは,サブ線形学習と推論時間を特徴とする。
我々は,PSEUDoの効率,精度,操縦性において優位性を示す。
論文 参考訳(メタデータ) (2021-04-30T13:00:44Z) - ESPRESSO: Entropy and ShaPe awaRe timE-Series SegmentatiOn for
processing heterogeneous sensor data [5.142415132534397]
多次元時系列のハイブリッドセグメンテーションモデルであるESPRESSOを提案する。
ESPRESSOは時系列のエントロピーと時間的形状特性を利用する。
ウェアラブルとウェアラブルフリーの7つのパブリックデータセットにまたがる、最先端の4つのメソッドよりも優れたパフォーマンスを提供する。
論文 参考訳(メタデータ) (2020-07-24T10:41:20Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Deep ConvLSTM with self-attention for human activity decoding using
wearables [0.0]
本稿では,複数のセンサ時系列データの特徴を捉えつつ,重要な時間点を選択するディープニューラルネットワークアーキテクチャを提案する。
提案手法の有効性を,異なるデータサンプリング戦略にまたがって示すとともに,自己認識機構が大幅に改善したことを示す。
提案手法は、複数の身体センサからの人間の活動のより優れた復号化を、長期間にわたって行うことができる。
論文 参考訳(メタデータ) (2020-05-02T04:30:31Z) - Human Activity Recognition from Wearable Sensor Data Using
Self-Attention [2.9023633922848586]
本稿では,身体のセンサデータから行動認識のための自己認識型ニューラルネットワークモデルを提案する。
一般に公開されている4つのHARデータセット、PAMAP2、Opportunity、Skoda、USC-HADについて実験を行った。
ベンチマークテスト対象とLeave-out-subject評価の両方において,最近の最先端モデルよりも高い性能向上を実現している。
論文 参考訳(メタデータ) (2020-03-17T14:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。