Fugu-MT 論文翻訳(概要): A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery

論文の概要: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery

arxiv url: http://arxiv.org/abs/2206.11706v1
Date: Thu, 23 Jun 2022 13:53:59 GMT
ステータス: 翻訳完了
システム内更新日: 2022-06-24 18:13:26.907145
Title: A Temporal Extension of Latent Dirichlet Allocation for Unsupervised Acoustic Unit Discovery
Title（参考訳）: 教師なし音響ユニット発見のための潜伏ディリクレ配置の時間拡張
Authors: Werner van der Merwe, Herman Kamper, Johan du Preez
Abstract要約: 本稿では、マルコフ連鎖を用いて時間情報をモデル化する潜在ディリクレ割り当て(LDA)の拡張を提案する。入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。
参考スコア（独自算出の注目度）: 20.165433724198937
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Latent Dirichlet allocation (LDA) is widely used for unsupervised topic modelling on sets of documents. No temporal information is used in the model. However, there is often a relationship between the corresponding topics of consecutive tokens. In this paper, we present an extension to LDA that uses a Markov chain to model temporal information. We use this new model for acoustic unit discovery from speech. As input tokens, the model takes a discretised encoding of speech from a vector quantised (VQ) neural network with 512 codes. The goal is then to map these 512 VQ codes to 50 phone-like units (topics) in order to more closely resemble true phones. In contrast to the base LDA, which only considers how VQ codes co-occur within utterances (documents), the Markov chain LDA additionally captures how consecutive codes follow one another. This extension leads to an increase in cluster quality and phone segmentation results compared to the base LDA. Compared to a recent vector quantised neural network approach that also learns 50 units, the extended LDA model performs better in phone segmentation but worse in mutual information.
Abstract（参考訳）: latent dirichlet allocation (lda) は文書集合の教師なしトピックモデリングに広く使われている。モデルでは時間情報は使用されない。しかし、連続するトークンの対応するトピックの間にはしばしば関係がある。本稿では,マルコフ連鎖を用いて時間情報をモデル化するLDAの拡張について述べる。音声からの音響単位発見にはこの新しいモデルを用いる。入力トークンとして、モデルは512符号のベクトル量子化(VQ)ニューラルネットワークから音声の離散符号化を取る。目標は、512のVQコードを50の電話のようなユニット(トピック)にマッピングして、本物の電話とよりよく似たものにすることだ。基本LDAとは対照的に、VQ符号が発話(文書)内でどのように共起するかのみを考慮し、マルコフ連鎖LDAは連続するコードが相互に後続する様子をキャプチャする。この拡張により、ベースとなるldaと比較してクラスタ品質と電話セグメンテーション結果が向上する。 50単位も学習する最近のベクトル量子ニューラルネットワークアプローチと比較して、拡張LDAモデルは電話セグメンテーションでは優れているが、相互情報では悪い。

関連論文リスト

Kolmogorov Arnold Network Autoencoder in Medicine [1.9662978733004604]
最近の研究はKAN(Kolmogorov Arnold Networks)と呼ばれる新しいアーキテクチャを導入し、ニューラルネットワークのエッジに学習可能なアクティベーション関数を配置することで、複数のシナリオのパフォーマンスが向上したことを報告している。本研究の目的は,複数バージョンのバニラAE(線形・畳み込み・変分法など)を,同じあるいは少ないパラメータを持つコルモゴロフ・アルノルドの値と比較することである。心電図をモデル入力として, 再建, 生成, 復調, 着色, 異常検出の5種類の古典的AEタスクについて検討した。
論文参考訳（メタデータ） (2025-07-19T06:50:50Z)
FIRP: Faster LLM inference via future intermediate representation prediction [54.897493351694195]
FIRPはデコードステップ毎に1つではなく複数のトークンを生成する。いくつかのモデルとデータセットで1.9x-3xのスピードアップ比を示す広範な実験を行った。
論文参考訳（メタデータ） (2024-10-27T15:53:49Z)
FastFiD: Improve Inference Efficiency of Open Domain Question Answering via Sentence Selection [61.9638234358049]
FastFiDは、エンコードされたパスで文の選択を実行する新しいアプローチである。これにより、価値ある文を保持するのに役立ち、回答を生成するのに必要な文脈長を減らすことができる。
論文参考訳（メタデータ） (2024-08-12T17:50:02Z)
Topic Modeling with Fine-tuning LLMs and Bag of Sentences [1.8592384822257952]
FT-Topicはトピックモデリングのための教師なしの微調整手法である。 SenCluは1つのトピックに対する文群の高速な推測とハードな割り当てを実現する、最先端のトピックモデリング手法である。
論文参考訳（メタデータ） (2024-08-06T11:04:07Z)
VALL-E R: Robust and Efficient Zero-Shot Text-to-Speech Synthesis via Monotonic Alignment [101.2489492032816]
VALL-E Rは、堅牢で効率的なゼロショットテキスト音声合成システムである。この研究は、失語症に罹患した人々のためのスピーチの作成を含む有意義なプロジェクトに適用される可能性がある。
論文参考訳（メタデータ） (2024-06-12T04:09:44Z)
Parallel Decoding via Hidden Transfer for Lossless Large Language Model Acceleration [54.897493351694195]
本稿では,複数連続するトークンを1つのフォワードパスで同時に復号する,新しい並列復号法,すなわちthithidden Transferを提案する。加速度測定では,Medusa や Self-Speculative decoding など,単モデル加速技術よりも優れています。
論文参考訳（メタデータ） (2024-04-18T09:17:06Z)
KG-FiD: Infusing Knowledge Graph in Fusion-in-Decoder for Open-Domain Question Answering [68.00631278030627]
検索した通路間の構造的関係を知識グラフで利用することにより,ノイズのある通路をフィルタする新しい手法KG-FiDを提案する。我々は,KG-FiDが解答一致スコアの最大1.5%向上し,計算コストの40%程度でFiDに匹敵する性能が得られることを示した。
論文参考訳（メタデータ） (2021-10-08T18:39:59Z)
Neural Distributed Source Coding [59.630059301226474]
相関構造に依存せず,高次元までスケール可能な損失DSCのためのフレームワークを提案する。提案手法は,複数のデータセット上で評価し,複雑な相関関係と最先端PSNRを扱えることを示す。
論文参考訳（メタデータ） (2021-06-05T04:50:43Z)
Vector-quantized neural networks for acoustic unit discovery in the ZeroSpeech 2020 challenge [26.114011076658237]
音声の離散表現を学習する問題に対処する2つのニューラルモデルを提案する。第1モデルはベクトル量子化変分オートエンコーダ(VQ-VAE)の一種である。第2のモデルはベクトル量子化と対比予測符号化(VQ-CPC)を組み合わせる我々は、ZeroSpeech 2020チャレンジにおいて、英語とインドネシア語のデータをモデルとして評価した。
論文参考訳（メタデータ） (2020-05-19T13:06:17Z)
Attentional Speech Recognition Models Misbehave on Out-of-domain Utterances [16.639133822656458]
我々は、LibriSpeechコーパスのみで訓練された注目エンコーダデコーダモデルを用いて、British National Corpusからオーディオをデコードする。我々は,500文字以上の復号出力を生成する5秒録音が多数存在することを観察した。同じデータに基づいてトレーニングされたフレーム同期ハイブリッド(DNN-HMM)モデルは、これらの異常に長い書き起こしを生成しない。
論文参考訳（メタデータ） (2020-02-12T18:53:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。