論文の概要: Topology combined machine learning for consonant recognition
- arxiv url: http://arxiv.org/abs/2311.15210v1
- Date: Sun, 26 Nov 2023 06:53:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 18:43:49.938424
- Title: Topology combined machine learning for consonant recognition
- Title(参考訳): 子音認識のためのトポロジー複合機械学習
- Authors: Pingyao Feng, Siheng Yi, Qingrui Qu, Zhiwang Yu, Yifei Zhu
- Abstract要約: TopCapは、低次元の内在性を持つデータセットでまれに検出される特徴をキャプチャできる。
発声子音と無声子音の分類において、TopCapは96%を超える精度を達成している。
TopCapは、音声と音声の深層学習のためのトポロジ的畳み込み層の設計を目的としている。
- 参考スコア(独自算出の注目度): 8.188982461393278
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In artificial-intelligence-aided signal processing, existing deep learning
models often exhibit a black-box structure, and their validity and
comprehensibility remain elusive. The integration of topological methods,
despite its relatively nascent application, serves a dual purpose of making
models more interpretable as well as extracting structural information from
time-dependent data for smarter learning. Here, we provide a transparent and
broadly applicable methodology, TopCap, to capture the most salient topological
features inherent in time series for machine learning. Rooted in
high-dimensional ambient spaces, TopCap is capable of capturing features rarely
detected in datasets with low intrinsic dimensionality. Applying time-delay
embedding and persistent homology, we obtain descriptors which encapsulate
information such as the vibration of a time series, in terms of its variability
of frequency, amplitude, and average line, demonstrated with simulated data.
This information is then vectorised and fed into multiple machine learning
algorithms such as k-nearest neighbours and support vector machine. Notably, in
classifying voiced and voiceless consonants, TopCap achieves an accuracy
exceeding 96% and is geared towards designing topological convolutional layers
for deep learning of speech and audio signals.
- Abstract(参考訳): 人工知能による信号処理では、既存のディープラーニングモデルはしばしばブラックボックス構造を示し、その妥当性と理解性はいまだに不明である。
トポロジカル手法の統合は、比較的初期段階の応用にもかかわらず、モデルをより解釈しやすくすると同時に、時間依存データから構造情報を抽出し、よりスマートな学習を可能にする。
ここでは,機械学習の時系列に内在する最も有意義なトポロジ的特徴を捉えるための,透過的で広く適用可能な手法 topcap を提供する。
高次元空間で回転するTopCapは、本質的な次元が低いデータセットでほとんど検出されない特徴をキャプチャできる。
時間遅延埋め込みと持続的ホモロジーを応用して、シミュレーションデータを用いて、時系列の振動などの情報を、その周波数、振幅、平均線の可変性の観点からカプセル化する記述子を得る。
この情報はベクトル化され、k-nearest近傍やサポートベクターマシンなどの複数の機械学習アルゴリズムに供給される。
特に、音声および無声子音の分類において、TopCapは96%を超える精度を達成し、音声および音声信号の深層学習のためのトポロジ的畳み込み層の設計に向けられている。
関連論文リスト
- Probing the Information Encoded in Neural-based Acoustic Models of
Automatic Speech Recognition Systems [7.207019635697126]
本稿では,自動音声認識音響モデル(AM)における情報の位置と位置を決定することを目的とする。
話者検証,音響環境分類,性別分類,テンポ歪検出システム,音声感情・感情識別について実験を行った。
分析の結果、ニューラルベースAMは驚くほど音素認識と無関係に思える異種情報を持っていることがわかった。
論文 参考訳(メタデータ) (2024-02-29T18:43:53Z) - Homological Convolutional Neural Networks [4.615338063719135]
本稿では,トポロジ的に制約されたネットワーク表現を通じて,データ構造構造を利用した新しいディープラーニングアーキテクチャを提案する。
5つの古典的な機械学習モデルと3つのディープラーニングモデルに対して、18のベンチマークデータセットでモデルをテストします。
論文 参考訳(メタデータ) (2023-08-26T08:48:51Z) - Improved Speech Emotion Recognition using Transfer Learning and
Spectrogram Augmentation [56.264157127549446]
音声感情認識(SER)は、人間とコンピュータの相互作用において重要な役割を果たす課題である。
SERの主な課題の1つは、データの不足である。
本稿では,スペクトログラム拡張と併用した移動学習戦略を提案する。
論文 参考訳(メタデータ) (2021-08-05T10:39:39Z) - Unsupervised Representation Learning for Time Series with Temporal
Neighborhood Coding [8.45908939323268]
非定常時系列に対する一般化可能な表現を学習するための自己教師型フレームワークを提案する。
我々のモチベーションは、時系列データの動的性質をモデル化する能力が特に有用である医療分野に起因している。
論文 参考訳(メタデータ) (2021-06-01T19:53:24Z) - Time Series Classification via Topological Data Analysis [0.0]
我々は2つの公開データセットに対して2次および3次分類タスクを実行する。
我々は、安定な位相的特徴を設計するために永続的ホモロジーを用いて目標を達成する。
論文 参考訳(メタデータ) (2021-02-03T09:09:05Z) - Deep Cellular Recurrent Network for Efficient Analysis of Time-Series
Data with Spatial Information [52.635997570873194]
本研究では,空間情報を用いた複雑な多次元時系列データを処理するための新しいディープセルリカレントニューラルネットワーク(DCRNN)アーキテクチャを提案する。
提案するアーキテクチャは,文献に比較して,学習可能なパラメータをかなり少なくしつつ,最先端の性能を実現している。
論文 参考訳(メタデータ) (2021-01-12T20:08:18Z) - A Novel Anomaly Detection Algorithm for Hybrid Production Systems based
on Deep Learning and Timed Automata [73.38551379469533]
DAD:DeepAnomalyDetectionは,ハイブリッド生産システムにおける自動モデル学習と異常検出のための新しいアプローチである。
深層学習とタイムドオートマトンを組み合わせて、観察から行動モデルを作成する。
このアルゴリズムは実システムからの2つのデータを含む少数のデータセットに適用され、有望な結果を示している。
論文 参考訳(メタデータ) (2020-10-29T08:27:43Z) - Network Classifiers Based on Social Learning [71.86764107527812]
空間と時間に対して独立に訓練された分類器を結合する新しい手法を提案する。
提案したアーキテクチャは、ラベルのないデータで時間とともに予測性能を改善することができる。
この戦略は高い確率で一貫した学習をもたらすことが示され、未訓練の分類器に対して頑健な構造が得られる。
論文 参考訳(メタデータ) (2020-10-23T11:18:20Z) - Representation Learning for Sequence Data with Deep Autoencoding
Predictive Components [96.42805872177067]
本稿では,シーケンスデータの有用な表現が潜在空間における単純な構造を示すべきという直感に基づく,シーケンスデータの自己教師型表現学習法を提案する。
我々は,過去と将来のウィンドウ間の相互情報である潜在特徴系列の予測情報を最大化することにより,この潜時構造を奨励する。
提案手法は,ノイズの多い動的システムの潜時空間を復元し,タスク予測のための予測特徴を抽出し,エンコーダを大量の未ラベルデータで事前訓練する場合に音声認識を改善する。
論文 参考訳(メタデータ) (2020-10-07T03:34:01Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Compact representation of temporal processes in echosounder time series
via matrix decomposition [0.7614628596146599]
本研究では,データに内在する特徴を用いて,時系列のコンパクトな表現を構築する手法を開発した。
この研究は、海洋における大規模で音響に基づく生物学的観測のための堅牢な時系列解析を構築する基盤となる。
論文 参考訳(メタデータ) (2020-07-06T17:33:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。