論文の概要: Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features
- arxiv url: http://arxiv.org/abs/2011.01986v1
- Date: Tue, 3 Nov 2020 20:06:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 05:45:27.830446
- Title: Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features
- Title(参考訳): 多言語ボトルネック特徴に基づくテーマ音声アーカイブからの教師なしパターン発見
- Authors: Man-Ling Sung and Siyuan Feng and Tan Lee
- Abstract要約: 教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
- 参考スコア(独自算出の注目度): 41.951988293049205
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The present study tackles the problem of automatically discovering spoken
keywords from untranscribed audio archives without requiring word-by-word
speech transcription by automatic speech recognition (ASR) technology. The
problem is of practical significance in many applications of speech analytics,
including those concerning low-resource languages, and large amount of
multilingual and multi-genre data. We propose a two-stage approach, which
comprises unsupervised acoustic modeling and decoding, followed by pattern
mining in acoustic unit sequences. The whole process starts by deriving and
modeling a set of subword-level speech units with untranscribed data. With the
unsupervisedly trained acoustic models, a given audio archive is represented by
a pseudo transcription, from which spoken keywords can be discovered by string
mining algorithms. For unsupervised acoustic modeling, a deep neural network
trained by multilingual speech corpora is used to generate speech segmentation
and compute bottleneck features for segment clustering. Experimental results
show that the proposed system is able to effectively extract topic-related
words and phrases from the lecture recordings on MIT OpenCourseWare.
- Abstract(参考訳): 本研究では,自動音声認識(ASR)技術を用いて,音声の書き起こしを必要とせず,音声アーカイブから音声キーワードを自動的に検出する問題に取り組む。
この問題は、低リソース言語や多言語データや多言語データなど、音声分析の多くの応用において実用的な意味を持つ。
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
プロセス全体は、非転写データによるサブワードレベルの音声ユニットのセットを導出し、モデル化することから始まる。
教師なしの音響モデルでは、与えられたオーディオアーカイブは擬似転写によって表現され、そこから文字列マイニングアルゴリズムによって音声キーワードが検出される。
教師なし音響モデリングでは、多言語音声コーパスによって訓練されたディープニューラルネットワークを用いて音声分割とセグメントクラスタリングのボトルネック特徴を生成する。
実験の結果,本システムはmitオープンコースウェアを用いた講義記録からトピック関連語句を効果的に抽出できることがわかった。
関連論文リスト
- dMel: Speech Tokenization made Simple [19.169460770473908]
メル-フィルターバンクチャネルを離散強度ビンに分割すると、単純な表現(dMel)が生成されることを示す。
本結果は,dMelが統合されたフレームワーク内の両方のタスクにおいて高い性能を実現する上で有効であることを示す。
論文 参考訳(メタデータ) (2024-07-22T17:51:53Z) - DiscreteSLU: A Large Language Model with Self-Supervised Discrete Speech Units for Spoken Language Understanding [51.32965203977845]
本稿では,連続的な音声エンコーダ出力の代わりに離散音声単位(DSU)を用いることを提案する。
提案モデルでは, 未知領域からの音声入力に対する頑健な性能と, 音声質問応答における指示追従能力を示す。
この結果から,ASRタスクとデータセットは,音声質問応答タスクの指導訓練に必須ではないことが示唆された。
論文 参考訳(メタデータ) (2024-06-13T17:28:13Z) - Multilingual acoustic word embeddings for zero-resource languages [1.5229257192293204]
音響単語埋め込み (AWE) - 可変重み付き音声セグメントの固定次元表現。
この研究は、ゼロリソース言語上の既存のAWEモデルを上回る、新しいニューラルネットワークを導入している。
AWEは、スワヒリ放送におけるヘイトスピーチ検出のためのキーワードスポッティングシステムに適用される。
論文 参考訳(メタデータ) (2024-01-19T08:02:37Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Representation Learning With Hidden Unit Clustering For Low Resource
Speech Applications [37.89857769906568]
本稿では,隠れ単位クラスタリング(HUC)フレームワークを用いた生音声からの自己教師付き表現学習のアプローチについて述べる。
モデルへの入力は、ウィンドウ化され、1次元畳み込み層で処理されるオーディオサンプルで構成されている。
HUCフレームワークは、表現を少数の音素のような単位に分類することができ、意味的に豊かな表現を学ぶためのモデルを訓練するために使用される。
論文 参考訳(メタデータ) (2023-07-14T13:02:10Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Self-Supervised Speech Representation Learning: A Review [105.1545308184483]
自己教師付き表現学習法は、幅広いタスクやドメインに利益をもたらす単一の普遍的モデルを約束する。
音声表現学習は、生成的、コントラスト的、予測的という3つの主要なカテゴリで同様の進歩を経験している。
本稿では,自己指導型音声表現学習のアプローチと,他の研究領域との関係について述べる。
論文 参考訳(メタデータ) (2022-05-21T16:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。