論文の概要: Voice2Series: Reprogramming Acoustic Models for Time Series
Classification
- arxiv url: http://arxiv.org/abs/2106.09296v1
- Date: Thu, 17 Jun 2021 07:59:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 15:58:46.402638
- Title: Voice2Series: Reprogramming Acoustic Models for Time Series
Classification
- Title(参考訳): Voice2Series:時系列分類のための音響モデルの再プログラム
- Authors: Chao-Han Huck Yang, Yun-Yun Tsai, Pin-Yu Chen
- Abstract要約: Voice2Seriesは、時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチである。
V2Sは20のタスクで性能が優れるか、最先端のメソッドと結びついているかを示し、平均精度を1.84%向上させる。
- 参考スコア(独自算出の注目度): 65.94154001167608
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Learning to classify time series with limited data is a practical yet
challenging problem. Current methods are primarily based on hand-designed
feature extraction rules or domain-specific data augmentation. Motivated by the
advances in deep speech processing models and the fact that voice data are
univariate temporal signals, in this paper, we propose Voice2Series (V2S), a
novel end-to-end approach that reprograms acoustic models for time series
classification, through input transformation learning and output label mapping.
Leveraging the representation learning power of a large-scale pre-trained
speech processing model, on 30 different time series tasks we show that V2S
either outperforms or is tied with state-of-the-art methods on 20 tasks, and
improves their average accuracy by 1.84%. We further provide a theoretical
justification of V2S by proving its population risk is upper bounded by the
source risk and a Wasserstein distance accounting for feature alignment via
reprogramming. Our results offer new and effective means to time series
classification.
- Abstract(参考訳): 限られたデータで時系列を分類する学習は実用的だが難しい問題である。
現在の手法は主に手書きの特徴抽出ルールやドメイン固有のデータ拡張に基づいている。
深層音声処理モデルの進歩と、音声データが一変時信号であるという事実に触発され、入力変換学習と出力ラベルマッピングを通じて時系列分類のための音響モデルをプログラムする新しいエンドツーエンドアプローチであるVoice2Series (V2S)を提案する。
大規模事前学習音声処理モデルの表現学習能力を活用することで,30個の異なる時系列タスクにおいて,v2は20個のタスクにおいて最先端の手法よりも優れており,その平均精度が1.84%向上することを示す。
さらに,v2sの個体群リスクがソースリスクとwasserstein距離による再プログラムによる特徴調整によって上限されていることを証明し,その理論的正当性を提供する。
我々の結果は時系列分類に新しい効果的な手段を提供する。
関連論文リスト
- An End-to-End Model for Time Series Classification In the Presence of Missing Values [25.129396459385873]
時系列分析では,データ不足による時系列分類が問題となっている。
本研究では,データ計算と表現学習を単一のフレームワーク内で統一するエンドツーエンドニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-08-11T19:39:12Z) - TSLANet: Rethinking Transformers for Time Series Representation Learning [19.795353886621715]
時系列データは、その固有の長短の依存関係によって特徴づけられる。
本稿では,時系列タスクの普遍的畳み込みモデルとして,新しい時系列軽量ネットワーク(TSLANet)を導入する。
我々の実験では、TSLANetは分類、予測、異常検出にまたがる様々なタスクにおいて最先端のモデルよりも優れていることを示した。
論文 参考訳(メタデータ) (2024-04-12T13:41:29Z) - Motion Code: Robust Time series Classification and Forecasting via Sparse Variational Multi-Stochastic Processes Learning [3.2857981869020327]
本稿では,各時系列を連続的なプロセスのサンプル化として考える新しいフレームワークを提案する。
このような数学的モデルは、複数のタイムスタンプにまたがるデータ依存を明示的に捉え、ノイズから隠れた時間依存信号を検出する。
次に、割り当てられたベクトルに基づいて個々のダイナミクスのスパース近似を推測する最も情報性の高いタイムスタンプの抽象的概念を提案する。
論文 参考訳(メタデータ) (2024-02-21T19:10:08Z) - Cross-modal Prompts: Adapting Large Pre-trained Models for Audio-Visual
Downstream Tasks [55.36987468073152]
本稿では,DG-SCT(Dual-Guided Space-Channel-Temporal)アテンション機構を提案する。
DG-SCTモジュールはトレーニング可能なクロスモーダル・インタラクション・レイヤを事前トレーニングされたオーディオ・ビジュアル・エンコーダに組み込む。
提案手法は, AVE, AVVP, AVS, AVQA, AVQAを含む複数のダウンストリームタスクにまたがる最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2023-11-09T05:24:20Z) - Time-LLM: Time Series Forecasting by Reprogramming Large Language Models [110.20279343734548]
時系列予測は多くの実世界の力学系において重要な意味を持つ。
時系列予測のための大規模言語モデルを再利用するための再プログラミングフレームワークであるTime-LLMを提案する。
Time-LLMは、最先端の特殊な予測モデルよりも優れた、強力な時系列学習者である。
論文 参考訳(メタデータ) (2023-10-03T01:31:25Z) - MADS: Modulated Auto-Decoding SIREN for time series imputation [9.673093148930874]
我々は,暗黙のニューラル表現に基づく時系列計算のための新しい自動デコードフレームワークMADSを提案する。
実世界の2つのデータセット上で本モデルを評価し,時系列計算における最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-03T09:08:47Z) - Any-to-One Sequence-to-Sequence Voice Conversion using Self-Supervised
Discrete Speech Representations [49.55361944105796]
シーケンス・ツー・シーケンス・フレームワークにおいて,任意のA2O音声変換(VC)に対して新しいアプローチを提案する。
A2O VCは、トレーニング中に目に見えないものを含むあらゆる話者を、固定されたターゲットスピーカーに変換することを目指している。
論文 参考訳(メタデータ) (2020-10-23T08:34:52Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。