論文の概要: Double Articulation Analyzer with Prosody for Unsupervised Word and
Phoneme Discovery
- arxiv url: http://arxiv.org/abs/2103.08199v1
- Date: Mon, 15 Mar 2021 08:17:44 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-16 14:31:42.658471
- Title: Double Articulation Analyzer with Prosody for Unsupervised Word and
Phoneme Discovery
- Title(参考訳): 教師なし単語と音素発見のための韻律付き二重調音解析器
- Authors: Yasuaki Okuda, Ryo Ozaki, and Tadahiro Taniguchi
- Abstract要約: 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。
本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。
本研究では, 統計的情報と韻律情報を用いて, 連続した人間の音声信号から直接, 韻律DAAが単語を発見できることを示す。
- 参考スコア(独自算出の注目度): 5.4237049671871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Infants acquire words and phonemes from unsegmented speech signals using
segmentation cues, such as distributional, prosodic, and co-occurrence cues.
Many pre-existing computational models that represent the process tend to focus
on distributional or prosodic cues. This paper proposes a nonparametric
Bayesian probabilistic generative model called the prosodic hierarchical
Dirichlet process-hidden language model (Prosodic HDP-HLM). Prosodic HDP-HLM,
an extension of HDP-HLM, considers both prosodic and distributional cues within
a single integrative generative model. We conducted three experiments on
different types of datasets, and demonstrate the validity of the proposed
method. The results show that the Prosodic DAA successfully uses prosodic cues
and outperforms a method that solely uses distributional cues. The main
contributions of this study are as follows: 1) We develop a probabilistic
generative model for time series data including prosody that potentially has a
double articulation structure; 2) We propose the Prosodic DAA by deriving the
inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can
discover words directly from continuous human speech signals using statistical
information and prosodic information in an unsupervised manner; 3) We show that
prosodic cues contribute to word segmentation more in naturally distributed
case words, i.e., they follow Zipf's law.
- Abstract(参考訳): 幼児は、分布、韻律、共起などのセグメンテーションキューを使用して、セグメント化されていない音声信号から単語と音素を取得します。
プロセスを表す既存の計算モデルの多くは、分布的または韻律的なキューにフォーカスする傾向がある。
本稿では,非パラメトリックベイズ確率生成モデル(Prosodic Hierarchical Dirichlet Process-hidden Language Model, Prosodic HDP-HLM)を提案する。
HDP-HLMの拡張であるProsodic HDP-HLMは、単一の統合生成モデル内の韻律的キューと分布的キューの両方を検討する。
各種データセットについて3つの実験を行い,提案手法の有効性を実証した。
その結果, 韻律DAAは韻律的手がかりをうまく利用し, 分布的手がかりのみを用いる手法よりも優れていた。
The main contributions of this study are as follows: 1) We develop a probabilistic generative model for time series data including prosody that potentially has a double articulation structure; 2) We propose the Prosodic DAA by deriving the inference procedure for Prosodic HDP-HLM and show that Prosodic DAA can discover words directly from continuous human speech signals using statistical information and prosodic information in an unsupervised manner; 3) We show that prosodic cues contribute to word segmentation more in naturally distributed case words, i.e., they follow Zipf's law.
関連論文リスト
- Sub-graph Based Diffusion Model for Link Prediction [43.15741675617231]
拡散確率モデル(Denoising Diffusion Probabilistic Models, DDPM)は、例外的な品質を持つ同時代の生成モデルである。
本研究では,ベイズ式による確率推定過程を分解するために,専用設計を用いたリンク予測のための新しい生成モデルを構築した。
提案手法は,(1)再トレーニングを伴わないデータセット間の転送可能性,(2)限られたトレーニングデータに対する有望な一般化,(3)グラフ敵攻撃に対する堅牢性など,多くの利点を示す。
論文 参考訳(メタデータ) (2024-09-13T02:23:55Z) - Graph Stochastic Neural Process for Inductive Few-shot Knowledge Graph Completion [63.68647582680998]
I-FKGC(inductive few-shot knowledge graph completion)と呼ばれる課題に焦点をあてる。
帰納的推論(inductive reasoning)の概念に着想を得て,I-FKGCを帰納的推論問題とした。
本稿では,仮説の連成分布をモデル化したニューラルプロセスに基づく仮説抽出器を提案する。
第2のモジュールでは、この仮説に基づいて、クエリセットのトリプルが抽出された仮説と一致するかどうかをテストするグラフアテンションベースの予測器を提案する。
論文 参考訳(メタデータ) (2024-08-03T13:37:40Z) - Data-centric Prediction Explanation via Kernelized Stein Discrepancy [14.177012256360635]
本稿では,KSDの特性を利用した高精度・データ中心記述(HD-Explain)予測法を提案する。
具体的には、KSDはモデル依存データ相関を符号化する訓練モデルのパラメータ化カーネル関数を独自に定義する。
本稿では,HD-Explainが高精度(きめ細かな説明),一貫性,計算効率など,様々な面から既存手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-22T19:04:02Z) - Interacting Diffusion Processes for Event Sequence Forecasting [20.380620709345898]
拡散生成モデルを組み込んだ新しい手法を提案する。
このモデルはシーケンス・ツー・シーケンスの予測を容易にし、過去のイベント・シーケンスに基づいた複数ステップの予測を可能にする。
提案手法は,TPPの長期予測において,最先端のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-26T22:17:25Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - DDP: Diffusion Model for Dense Visual Prediction [71.55770562024782]
本研究では,条件付き拡散パイプラインに基づく高密度視覚予測のための,シンプルで効率的かつ強力なフレームワークを提案する。
DDPと呼ばれるこの手法は、デノナイジング拡散過程を現代の知覚パイプラインに効率的に拡張する。
DDPは、従来の単段階識別法とは対照的に、動的推論や不確実性認識などの魅力的な特性を示す。
論文 参考訳(メタデータ) (2023-03-30T17:26:50Z) - Automatically Identifying Semantic Bias in Crowdsourced Natural Language
Inference Datasets [78.6856732729301]
NLIデータセットに仮説を組み込んだ学習空間に"バイアスクラスタ"を見つけるために,モデル駆動で教師なしの手法を導入する。
データセットの仮説分布のセマンティックバイアスを改善するために、介入と追加のラベリングを行うことができる。
論文 参考訳(メタデータ) (2021-12-16T22:49:01Z) - Joint Characterization of Spatiotemporal Data Manifolds [0.0]
次元減少 (DR) は、高次元信号の「次元の曲線」を緩和するために設計された特徴量の一種である。
近年、非線形DRアルゴリズムが新たに開発され、しばしば「manifold learning」に分類されている。
ここでは、これらの3つのDRアプローチが、ST多様体位相に関する相補的な情報を得ることができることを示す。
論文 参考訳(メタデータ) (2021-08-21T16:42:22Z) - Generative Semantic Hashing Enhanced via Boltzmann Machines [61.688380278649056]
既存の生成ハッシュ法は、主に後部分布の分解形式を仮定する。
本稿では,ボルツマンマシンの分布を検索後部として利用することを提案する。
ハッシュコード内の異なるビット間の相関関係を効果的にモデル化することにより、我々のモデルは大幅な性能向上を達成できることを示す。
論文 参考訳(メタデータ) (2020-06-16T01:23:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。