論文の概要: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised
Acoustic Unit Discovery
- arxiv url: http://arxiv.org/abs/2206.11706v1
- Date: Thu, 23 Jun 2022 13:53:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 18:13:26.907145
- Title: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised
Acoustic Unit Discovery
- Title(参考訳): 教師なし音響ユニット発見のための潜伏ディリクレ配置の時間拡張
- Authors: Werner van der Merwe, Herman Kamper, Johan du Preez
- Abstract要約: 本稿では、マルコフ連鎖を用いて時間情報をモデル化する潜在ディリクレ割り当て(LDA)の拡張を提案する。
入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。
目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。
- 参考スコア(独自算出の注目度): 20.165433724198937
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Latent Dirichlet allocation (LDA) is widely used for unsupervised topic
modelling on sets of documents. No temporal information is used in the model.
However, there is often a relationship between the corresponding topics of
consecutive tokens. In this paper, we present an extension to LDA that uses a
Markov chain to model temporal information. We use this new model for acoustic
unit discovery from speech. As input tokens, the model takes a discretised
encoding of speech from a vector quantised (VQ) neural network with 512 codes.
The goal is then to map these 512 VQ codes to 50 phone-like units (topics) in
order to more closely resemble true phones. In contrast to the base LDA, which
only considers how VQ codes co-occur within utterances (documents), the Markov
chain LDA additionally captures how consecutive codes follow one another. This
extension leads to an increase in cluster quality and phone segmentation
results compared to the base LDA. Compared to a recent vector quantised neural
network approach that also learns 50 units, the extended LDA model performs
better in phone segmentation but worse in mutual information.
- Abstract(参考訳): latent dirichlet allocation (lda) は文書集合の教師なしトピックモデリングに広く使われている。
モデルでは時間情報は使用されない。
しかし、連続するトークンの対応するトピックの間にはしばしば関係がある。
本稿では,マルコフ連鎖を用いて時間情報をモデル化するLDAの拡張について述べる。
音声からの音響単位発見にはこの新しいモデルを用いる。
入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。
目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。
基本LDAとは対照的に、VQ符号が発話(文書)内でどのように共起するかのみを考慮し、マルコフ連鎖LDAは連続するコードが相互に後続する様子をキャプチャする。
この拡張により、ベースとなるldaと比較してクラスタ品質と電話セグメンテーション結果が向上する。
50単位も学習する最近のベクトル量子ニューラルネットワークアプローチと比較して、拡張LDAモデルは電話セグメンテーションでは優れているが、相互情報では悪い。
関連論文リスト
- SparseCoder: Identifier-Aware Sparse Transformer for File-Level Code
Summarization [51.67317895094664]
本稿では,大規模なソースコードプロジェクトの理解と維持を支援するファイルレベルのコード要約について検討する。
長いコードシーケンスを効果的に処理するための識別子対応スパース変換器であるSparseCoderを提案する。
論文 参考訳(メタデータ) (2024-01-26T09:23:27Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - ED2LM: Encoder-Decoder to Language Model for Faster Document Re-ranking
Inference [70.36083572306839]
本稿では,再ランク付けのための新しいトレーニングおよび推論パラダイムを提案する。
文書形式を用いて事前訓練したエンコーダ・デコーダモデルを精査し,クエリ生成を行う。
このエンコーダ-デコーダアーキテクチャは,推論中にデコーダのみの言語モデルに分解可能であることを示す。
論文 参考訳(メタデータ) (2022-04-25T06:26:29Z) - Word Segmentation on Discovered Phone Units with Dynamic Programming and
Self-Supervised Scoring [23.822788597966646]
教師なし音声セグメンテーションの最近の研究は、電話セグメンテーションモジュールと、共同で訓練された単語セグメンテーションモジュールを備えた自己教師型モデルを用いている。
本稿では,この共同手法と,まずボトムアップ電話のような単位探索を行い,その上で記号的単語セグメンテーションを行うという,従来の考え方と比較する。
具体的には、セグメントコストを与える自己監督型スコアリングネットワークを変更することで、電話や単語のセグメンテーションに使用可能な、期間金化動的プログラミング(DPDP)手順を具体的に記述する。
論文 参考訳(メタデータ) (2022-02-24T07:02:56Z) - Dendritic Self-Organizing Maps for Continual Learning [0.0]
我々は、DendSOM(Dendritic-Self-Organizing Map)と呼ばれる生物学的ニューロンにインスパイアされた新しいアルゴリズムを提案する。
DendSOMは、入力空間の特定の領域からパターンを抽出する単一のSOMからなる。
ベンチマークデータセットでは、古典的なSOMやいくつかの最先端の継続的学習アルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2021-10-18T14:47:19Z) - KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain
Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。
我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文 参考訳(メタデータ) (2021-10-08T18:39:59Z) - Neural Distributed Source Coding [79.83751738445713]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。
提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文 参考訳(メタデータ) (2021-06-05T04:50:43Z) - Incremental Training of a Recurrent Neural Network Exploiting a
Multi-Scale Dynamic Memory [79.42778415729475]
本稿では,マルチスケール学習を対象とする,漸進的に訓練された再帰的アーキテクチャを提案する。
隠れた状態を異なるモジュールに分割することで、シンプルなRNNのアーキテクチャを拡張する方法を示す。
新しいモジュールがモデルに反復的に追加され、徐々に長い依存関係を学習するトレーニングアルゴリズムについて議論する。
論文 参考訳(メタデータ) (2020-06-29T08:35:49Z) - Vector-quantized neural networks for acoustic unit discovery in the
ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。
第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。
第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる
我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文 参考訳(メタデータ) (2020-05-19T13:06:17Z) - Attentional Speech Recognition Models Misbehave on Out-of-domain
Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。
我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。
同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文 参考訳(メタデータ) (2020-02-12T18:53:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。