論文の概要: Topological Data Analysis for Speech Processing
- arxiv url: http://arxiv.org/abs/2211.17223v2
- Date: Fri, 2 Dec 2022 14:24:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 13:27:45.003766
- Title: Topological Data Analysis for Speech Processing
- Title(参考訳): 音声処理のためのトポロジカルデータ解析
- Authors: Eduard Tulchinskii, Kristian Kuznetsov, Laida Kushnareva, Daniil
Cherniavskii, Serguei Barannikov, Irina Piontkovskaya, Sergey Nikolenko,
Evgeny Burnaev
- Abstract要約: このような特徴の上に構築された単純な線形分類器は、微調整された分類ヘッドよりも優れていることを示す。
また、トポロジカルな特徴は、音声トランスフォーマーヘッドの機能的役割を明らかにすることができることを示す。
- 参考スコア(独自算出の注目度): 10.00176964652466
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We apply topological data analysis (TDA) to speech classification problems
and to the introspection of a pretrained speech model, HuBERT. To this end, we
introduce a number of topological and algebraic features derived from
Transformer attention maps and embeddings. We show that a simple linear
classifier built on top of such features outperforms a fine-tuned
classification head. In particular, we achieve an improvement of about $9\%$
accuracy and $5\%$ ERR on four common datasets; on CREMA-D, the proposed
feature set reaches a new state of the art performance with accuracy $80.155$.
We also show that topological features are able to reveal functional roles of
speech Transformer heads; e.g., we find the heads capable to distinguish
between pairs of sample sources (natural/synthetic) or voices without any
downstream fine-tuning. Our results demonstrate that TDA is a promising new
approach for speech analysis, especially for tasks that require structural
prediction. Appendices, an introduction to TDA, and other additional materials
are available here - https://topohubert.github.io/speech-topology-webpages/
- Abstract(参考訳): 音声分類問題と事前訓練された音声モデル HuBERT のイントロスペクションにトポロジカルデータ解析(TDA)を適用した。
この目的のために,トランスフォーマーアテンションマップと埋め込みから派生した位相的および代数的特徴をいくつか紹介する。
このような特徴の上に構築された単純な線形分類器が,微調整された分類ヘッドよりも優れていることを示す。
特に、私たちは4つの一般的なデータセットで約9\%$精度と$5\%$ errの改善を達成しました。
また,音声トランスフォーマーヘッドの機能的役割をトポロジカルな特徴から明らかにできることを示す。例えば,下流の微調整をすることなく,サンプルソース(自然/合成)と音声のペアを区別できるヘッドを見出した。
以上の結果から,TDAは音声解析,特に構造予測を必要とするタスクにおいて,有望な新しいアプローチであることが示された。
追加、tdaの紹介、その他の追加資料はここで入手できる。 https://topohubert.github.io/speech-topology-webpages/
関連論文リスト
- We Augmented Whisper With kNN and You Won't Believe What Came Next [10.174848090916669]
変換器のエンドツーエンド音声モデルであるWhisperが$k$NNの恩恵を受けていることを示す。
話者適応の意義について議論し、性別、アクセント、年齢による改善を分析した。
論文 参考訳(メタデータ) (2024-10-24T15:32:52Z) - Noise-Resilient Unsupervised Graph Representation Learning via Multi-Hop Feature Quality Estimation [53.91958614666386]
グラフニューラルネットワーク(GNN)に基づく教師なしグラフ表現学習(UGRL)
マルチホップ特徴量推定(MQE)に基づく新しいUGRL法を提案する。
論文 参考訳(メタデータ) (2024-07-29T12:24:28Z) - Exploring Meta Information for Audio-based Zero-shot Bird Classification [113.17261694996051]
本研究では,メタ情報を用いてゼロショット音声分類を改善する方法について検討する。
我々は,多種多様なメタデータが利用可能であることから,鳥種を例として用いている。
論文 参考訳(メタデータ) (2023-09-15T13:50:16Z) - Can BERT eat RuCoLA? Topological Data Analysis to Explain [3.9775243265158076]
本稿では,アクセシビリティ分類のためのトランスフォーマー言語モデル (LM) の微調整について検討する。
我々は、注意行列から有向注意グラフを構築し、それらから位相的特徴を導出し、それらを線形分類器に供給する。
そこで本研究では,TDAに基づく分類器が微調整ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-04-04T10:11:06Z) - ProsoSpeech: Enhancing Prosody With Quantized Vector Pre-training in
Text-to-Speech [96.0009517132463]
音声の低周波帯域を定量化し、潜在韻律ベクトル(LPV)における韻律特性を圧縮する単語レベル韻律エンコーダを提案する。
次に、LPV予測器を導入し、与えられた単語列を予測し、高品質なTSデータセットで微調整する。
実験結果から, ProsoSpeechはベースライン法と比較してよりリッチな韻律で音声を生成することができることがわかった。
論文 参考訳(メタデータ) (2022-02-16T01:42:32Z) - Towards Open-World Feature Extrapolation: An Inductive Graph Learning
Approach [80.8446673089281]
グラフ表現と学習を伴う新しい学習パラダイムを提案する。
本フレームワークは,1) 下位モデルとしてのバックボーンネットワーク(フィードフォワードニューラルネットなど)が,予測ラベルの入力および出力として機能を取り,2) 上位モデルとしてのグラフニューラルネットワークが,観測データから構築された特徴データグラフをメッセージパッシングすることで,新機能の埋め込みを外挿することを学ぶ。
論文 参考訳(メタデータ) (2021-10-09T09:02:45Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - What do End-to-End Speech Models Learn about Speaker, Language and
Channel Information? A Layer-wise and Neuron-level Analysis [16.850888973106706]
本稿では,事前学習した音声モデルの探索フレームワークを用いたポストホック機能解析を行う。
話者認識や方言識別といった様々なタスクのために訓練された音声モデルの発話レベル表現を解析する。
i) チャネル情報と性別情報はネットワーク全体に分散され,i) 情報はタスクに関してニューロンで冗長に利用可能であり,iv) 弁証情報などの複雑な特性はタスク指向の事前学習ネットワークでのみ符号化される。
論文 参考訳(メタデータ) (2021-07-01T13:32:55Z) - Persistence Homology of TEDtalk: Do Sentence Embeddings Have a
Topological Shape? [3.1675545188012078]
公衆発話評価の分類精度を向上させるためにTDAを適用する可能性を検討する。
TEDtalkデータの文埋め込みのためのエンハンスレンス画像ベクトルを計算し、このベクトルを機械学習モデルに追加入力として与えた。
以上の結果から,文章埋め込みのトポロジカルな形状が,公用語評価のためのより良いモデルトレーニングに役立つと結論づけることはできなかった。
論文 参考訳(メタデータ) (2021-03-25T20:52:17Z) - Building powerful and equivariant graph neural networks with structural
message-passing [74.93169425144755]
本稿では,2つのアイデアに基づいた,強力かつ同変なメッセージパッシングフレームワークを提案する。
まず、各ノードの周囲の局所的コンテキスト行列を学習するために、特徴に加えてノードの1ホット符号化を伝搬する。
次に,メッセージのパラメトリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-26T17:15:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。