論文の概要: Double Articulation Analyzer with Prosody for Unsupervised Word and
Phoneme Discovery
- arxiv url: http://arxiv.org/abs/2103.08199v1
- Date: Mon, 15 Mar 2021 08:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:31:42.658471
- Title: Double Articulation Analyzer with Prosody for Unsupervised Word and
Phoneme Discovery
- Title(参考訳): 教師なし単語と音素発見のための韻律付き二重調音解析器
- Authors: Yasuaki Okuda, Ryo Ozaki, and Tadahiro Taniguchi
- Abstract要約: 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。
本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。
本研究では, 統計的情報と韻律情報を用いて, 連続した人間の音声信号から直接, 韻律DAAが単語を発見できることを示す。
- 参考スコア(独自算出の注目度): 5.4237049671871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infants acquire words and phonemes from unsegmented speech signals using
segmentation cues, such as distributional, prosodic, and co-occurrence cues.
Many pre-existing computational models that represent the process tend to focus
on distributional or prosodic cues. This paper proposes a nonparametric
Bayesian probabilistic generative model called the prosodic hierarchical
Dirichlet process-hidden language model (Prosodic HDP-HLM). Prosodic HDP-HLM,
an extension of HDP-HLM, considers both prosodic and distributional cues within
a single integrative generative model. We conducted three experiments on
different types of datasets, and demonstrate the validity of the proposed
method. The results show that the Prosodic DAA successfully uses prosodic cues
and outperforms a method that solely uses distributional cues. The main
contributions of this study are as follows: 1) We develop a probabilistic
generative model for time series data including prosody that potentially has a
double articulation structure; 2) We propose the Prosodic DAA by deriving the
inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can
discover words directly from continuous human speech signals using statistical
information and prosodic information in an unsupervised manner; 3) We show that
prosodic cues contribute to word segmentation more in naturally distributed
case words, i.e., they follow Zipf's law.
- Abstract(参考訳): 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。
プロセスを表す既存の計算モデルの多くは、分布的または韻律的なキューにフォーカスする傾向がある。
本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。
HDP-HLMの拡張であるProsodic HDP-HLMは、単一の統合生成モデル内の韻律的キューと分布的キューの両方を検討する。
各種データセットについて3つの実験を行い,提案手法の有効性を実証した。
その結果, 韻律DAAは韻律的手がかりをうまく利用し, 分布的手がかりのみを用いる手法よりも優れていた。
The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.
関連論文リスト
- Interacting Diffusion Processes for Event Sequence Forecasting [22.905775236041645]
拡散生成モデルを組み込んだ新しい手法を提案する。
このモデルはシーケンス・ツー・シーケンスの予測を容易にし、過去のイベント・シーケンスに基づいた複数ステップの予測を可能にする。
提案手法は,TPPの長期予測において,最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-26T22:17:25Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Joint Characterization of Spatiotemporal Data Manifolds [0.0]
次元減少 (DR) は、高次元信号の「次元の曲線」を緩和するために設計された特徴量の一種である。
近年、非線形DRアルゴリズムが新たに開発され、しばしば「manifold learning」に分類されている。
ここでは、これらの3つのDRアプローチが、ST多様体位相に関する相補的な情報を得ることができることを示す。
論文 参考訳(メタデータ) (2021-08-21T16:42:22Z) - Parsimony-Enhanced Sparse Bayesian Learning for Robust Discovery of
Partial Differential Equations [5.584060970507507]
Parsimony Enhanced Sparse Bayesian Learning (PeSBL) 法は非線形力学系の部分微分方程式 (PDE) を解析するために開発された。
数値ケーススタディの結果,多くの標準力学系のPDEをPeSBL法を用いて正確に同定できることが示唆された。
論文 参考訳(メタデータ) (2021-07-08T00:56:11Z) - Generative Text Modeling through Short Run Inference [47.73892773331617]
本研究は、推論のためのショートランダイナミックスを提案し、潜伏変数の以前の分布から変化し、後続分布によって導かれる少数のランゲヴィンダイナミックスステップを実行する。
短絡力学で訓練されたモデルは、強い言語モデルやVAEベースラインと比較して、より正確にデータをモデル化し、後方崩壊の兆候は示さない。
論文 参考訳(メタデータ) (2021-05-27T09:14:35Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。