論文の概要: Discrete Speech Unit Extraction via Independent Component Analysis
- arxiv url: http://arxiv.org/abs/2501.06562v1
- Date: Sat, 11 Jan 2025 14:45:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-14 14:26:48.222832
- Title: Discrete Speech Unit Extraction via Independent Component Analysis
- Title(参考訳): 独立成分分析による離散音声単位抽出
- Authors: Tomohiko Nakamura, Kwanghee Choi, Keigo Hojo, Yoshiaki Bando, Satoru Fukayama, Shinji Watanabe,
- Abstract要約: クラスタリングS3M表現は離散音声単位(DSU)を生成する
DSUの使用は、自動音声認識(ASR)など、様々なタスクにおいて高いパフォーマンスをもたらすことが多い。
- 参考スコア(独自算出の注目度): 37.43486770867158
- License:
- Abstract: Self-supervised speech models (S3Ms) have become a common tool for the speech processing community, leveraging representations for downstream tasks. Clustering S3M representations yields discrete speech units (DSUs), which serve as compact representations for speech signals. DSUs are typically obtained by k-means clustering. Using DSUs often leads to strong performance in various tasks, including automatic speech recognition (ASR). However, even with the high dimensionality and redundancy of S3M representations, preprocessing S3M representations for better clustering remains unexplored, even though it can affect the quality of DSUs. In this paper, we investigate the potential of linear preprocessing methods for extracting DSUs. We evaluate standardization, principal component analysis, whitening, and independent component analysis (ICA) on DSU-based ASR benchmarks and demonstrate their effectiveness as preprocessing for k-means. We also conduct extensive analyses of their behavior, such as orthogonality or interpretability of individual components of ICA.
- Abstract(参考訳): 自己教師付き音声モデル(S3M)は、下流タスクの表現を活用することで、音声処理コミュニティの共通ツールとなっている。
S3M表現のクラスタリングは、音声信号のコンパクト表現として機能する離散音声単位(DSU)を生成する。
DSUは通常、k平均クラスタリングによって得られる。
DSUの使用は、自動音声認識(ASR)など、様々なタスクにおいて高いパフォーマンスをもたらすことが多い。
しかし、S3M表現の高次元性と冗長性にもかかわらず、より優れたクラスタリングのための前処理S3M表現は、DSUの品質に影響を与える可能性があるにもかかわらず、まだ探索されていない。
本稿では,DSU抽出のための線形前処理手法の可能性について検討する。
我々は、DSUベースのASRベンチマークにおいて、標準化、主成分分析、白化、独立成分分析(ICA)を評価し、k-meansの事前処理としての有効性を実証する。
また,ICAの個々の成分の直交性や解釈可能性など,その挙動を広範囲に解析する。
関連論文リスト
- Houston we have a Divergence: A Subgroup Performance Analysis of ASR Models [2.5168553347063862]
Fearless Steps APOLLO Community Resourceは、マルチスピーカーチームコミュニケーションの可能性を探るための例外のない機会を提供する。
本研究では,ASR(Automatic Speech Recognition, 自動音声認識)手法により, アポロの録音を多かれ少なかれ理解しやすくする特徴を明らかにすることに焦点を当てた。
論文 参考訳(メタデータ) (2024-03-31T10:06:19Z) - A Quantitative Approach to Understand Self-Supervised Models as
Cross-lingual Feature Extractors [9.279391026742658]
特徴抽出器としてのモデルの性能に及ぼすモデルサイズ,トレーニング目標,モデルアーキテクチャの影響を解析する。
我々は,抽出した表現の音声情報と合成情報を測定するために,音声合成比(PSR)という新しい尺度を開発した。
論文 参考訳(メタデータ) (2023-11-27T15:58:28Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Analysing Discrete Self Supervised Speech Representation for Spoken
Language Modeling [21.19785690690611]
この研究は、生成音声言語モデリングの目を通して、個別の自己教師付き音声表現を深く分析する。
GSLMの離散ユニットの実用的改善を提案する。
論文 参考訳(メタデータ) (2023-01-02T10:36:40Z) - Context-aware Fine-tuning of Self-supervised Speech Models [56.95389222319555]
微調整におけるコンテキスト,すなわち周辺セグメントの使用について検討する。
我々はコンテキスト認識ファインチューニングと呼ばれる新しいアプローチを提案する。
いくつかの下流タスクに対して,SLUE と Libri-light ベンチマークを用いて提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-12-16T15:46:15Z) - End-to-End Active Speaker Detection [58.7097258722291]
本稿では,特徴学習と文脈予測を共同で学習するエンド・ツー・エンドのトレーニングネットワークを提案する。
また、時間間グラフニューラルネットワーク(iGNN)ブロックを導入し、ASD問題における主要なコンテキストのソースに応じてメッセージパッシングを分割する。
実験により、iGNNブロックからの集約された特徴はASDにより適しており、その結果、最先端のアートパフォーマンスが得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T08:55:28Z) - Deep Learning-based Non-Intrusive Multi-Objective Speech Assessment Model with Cross-Domain Features [31.59528815233441]
我々はMOSA-Netと呼ばれるクロスドメイン多目的音声アセスメントモデルを提案し、同時に複数の音声アセスメント指標を推定できる。
実験の結果, 音声品質(PESQ)予測の知覚評価において, MOSA-Net は線形相関係数 (LCC) を 0.026 (0.990 vs 0.964) と 0.012 (0.969 vs 0.957) で改善できることがわかった。
論文 参考訳(メタデータ) (2021-11-03T17:30:43Z) - Discrete representations in neural models of spoken language [56.29049879393466]
音声言語の弱教師付きモデルの文脈における4つの一般的なメトリクスの利点を比較した。
異なる評価指標が矛盾する結果をもたらすことが分かりました。
論文 参考訳(メタデータ) (2021-05-12T11:02:02Z) - SUPERB: Speech processing Universal PERformance Benchmark [78.41287216481203]
自然言語処理(NLP)とコンピュータビジョン(CV)の研究を進める上で、SSL(Self-supervised Learning)は不可欠です。
SuperBは、幅広い音声処理タスクで共有モデルのパフォーマンスをベンチマークするためのリーダーボードです。
凍結共有モデル上にタスク特化軽量予測ヘッドを学習することで、SUPERBタスクを解決するためのシンプルなフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-03T17:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。