論文の概要: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised
Acoustic Unit Discovery
- arxiv url: http://arxiv.org/abs/2206.11706v1
- Date: Thu, 23 Jun 2022 13:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 18:13:26.907145
- Title: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised
Acoustic Unit Discovery
- Title(参考訳): 教師なし音響ユニット発見のための潜伏ディリクレ配置の時間拡張
- Authors: Werner van der Merwe, Herman Kamper, Johan du Preez
- Abstract要約: 本稿では、マルコフ連鎖を用いて時間情報をモデル化する潜在ディリクレ割り当て(LDA)の拡張を提案する。
入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。
目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。
- 参考スコア(独自算出の注目度): 20.165433724198937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Latent Dirichlet allocation (LDA) is widely used for unsupervised topic
modelling on sets of documents. No temporal information is used in the model.
However, there is often a relationship between the corresponding topics of
consecutive tokens. In this paper, we present an extension to LDA that uses a
Markov chain to model temporal information. We use this new model for acoustic
unit discovery from speech. As input tokens, the model takes a discretised
encoding of speech from a vector quantised (VQ) neural network with 512 codes.
The goal is then to map these 512 VQ codes to 50 phone-like units (topics) in
order to more closely resemble true phones. In contrast to the base LDA, which
only considers how VQ codes co-occur within utterances (documents), the Markov
chain LDA additionally captures how consecutive codes follow one another. This
extension leads to an increase in cluster quality and phone segmentation
results compared to the base LDA. Compared to a recent vector quantised neural
network approach that also learns 50 units, the extended LDA model performs
better in phone segmentation but worse in mutual information.
- Abstract(参考訳): latent dirichlet allocation (lda) は文書集合の教師なしトピックモデリングに広く使われている。
モデルでは時間情報は使用されない。
しかし、連続するトークンの対応するトピックの間にはしばしば関係がある。
本稿では,マルコフ連鎖を用いて時間情報をモデル化するLDAの拡張について述べる。
音声からの音響単位発見にはこの新しいモデルを用いる。
入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。
目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。
基本LDAとは対照的に、VQ符号が発話(文書)内でどのように共起するかのみを考慮し、マルコフ連鎖LDAは連続するコードが相互に後続する様子をキャプチャする。
この拡張により、ベースとなるldaと比較してクラスタ品質と電話セグメンテーション結果が向上する。
50単位も学習する最近のベクトル量子ニューラルネットワークアプローチと比較して、拡張LDAモデルは電話セグメンテーションでは優れているが、相互情報では悪い。
関連論文リスト
- FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。
いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文 参考訳(メタデータ) (2024-10-27T15:53:49Z) - FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection [61.9638234358049]
FastFiDは、エンコードされたパスで文の選択を実行する新しいアプローチである。
これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。
論文 参考訳(メタデータ) (2024-08-12T17:50:02Z) - Topic Modeling with Fine-tuning LLMs and Bag of Sentences [1.8592384822257952]
FT-Topicはトピックモデリングのための教師なしの微調整手法である。
SenCluは1つのトピックに対する文群の高速な推測とハードな割り当てを実現する、最先端のトピックモデリング手法である。
論文 参考訳(メタデータ) (2024-08-06T11:04:07Z) - VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。
この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文 参考訳(メタデータ) (2024-06-12T04:09:44Z) - Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。
加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文 参考訳(メタデータ) (2024-04-18T09:17:06Z) - KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain
Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。
我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2021-10-08T18:39:59Z) - Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。