論文の概要: MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning
- arxiv url: http://arxiv.org/abs/2310.11541v1
- Date: Tue, 17 Oct 2023 19:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-19 18:37:21.272258
- Title: MUST&P-SRL: Multi-lingual and Unified Syllabification in Text and
Phonetic Domains for Speech Representation Learning
- Title(参考訳): MUST&P-SRL:音声表現学習のためのテキスト・音声領域における多言語・統一音節分類
- Authors: No\'e Tits
- Abstract要約: 言語特徴抽出の方法論として,複数の言語における単語の自動分割に着目した手法を提案する。
本手法は,テキストと音声の両領域において,テキストから音素の書き起こしを抽出すること,ストレスマーク,統合された自動音節分類に重点を置いている。
このシステムはオープンソースのコンポーネントとリソースで構築された。
- 参考スコア(独自算出の注目度): 0.76146285961466
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present a methodology for linguistic feature extraction,
focusing particularly on automatically syllabifying words in multiple
languages, with a design to be compatible with a forced-alignment tool, the
Montreal Forced Aligner (MFA). In both the textual and phonetic domains, our
method focuses on the extraction of phonetic transcriptions from text, stress
marks, and a unified automatic syllabification (in text and phonetic domains).
The system was built with open-source components and resources. Through an
ablation study, we demonstrate the efficacy of our approach in automatically
syllabifying words from several languages (English, French and Spanish).
Additionally, we apply the technique to the transcriptions of the CMU ARCTIC
dataset, generating valuable annotations available
online\footnote{\url{https://github.com/noetits/MUST_P-SRL}} that are ideal for
speech representation learning, speech unit discovery, and disentanglement of
speech factors in several speech-related fields.
- Abstract(参考訳): 本稿では,多言語における単語の自動分類に着目し,強制調整ツールであるモントリオール強制調整器 (mfa) と互換性のある言語特徴抽出手法を提案する。
テキスト領域と音声領域の両方において,本手法はテキスト,ストレスマーク,自動音節化(テキスト領域と音声領域)からの音声転写の抽出に焦点を当てている。
システムはオープンソースのコンポーネントとリソースで構築された。
アブレーション研究を通じて,複数の言語(英語,フランス語,スペイン語)から自動的に単語を合成する手法の有効性を実証した。
さらに、この手法をCMU ARCTICデータセットの転写に適用し、いくつかの音声関連分野における音声表現学習、音声単位発見、および音声要素のアンタングル化に最適な、オンラインで利用可能な貴重なアノテーションを生成する。
関連論文リスト
- Algorithms For Automatic Accentuation And Transcription Of Russian Texts In Speech Recognition Systems [0.0]
本稿では,ロシア語テキストの自動アクセント化と音韻転写のためのルールベースシステムの概要について述べる。
開発したシステムの2つの部分、アクセントと文字起こしは、入力句の正しい音韻表現を実現するために異なるアプローチを用いている。
開発ツールキットはPython言語で書かれており、興味のある研究者はGitHubからアクセスできる。
論文 参考訳(メタデータ) (2024-10-03T14:43:43Z) - MunTTS: A Text-to-Speech System for Mundari [18.116359188623832]
MnTTSは,オーストリア・アジア系の低リソースのインド語であるムンダリ(Mundari)のための,エンドツーエンドのテキスト音声合成システムである。
本研究は、音声合成システムを構築するために、データを収集し、処理することで、未表現言語における言語技術のギャップに対処する。
論文 参考訳(メタデータ) (2024-01-28T06:27:17Z) - Design and Implementation of a Tool for Extracting Uzbek Syllables [0.0]
シラビフィケーション(Syllabification)は、言語研究、言語技術、教育、および様々な分野に応用された多用途の言語ツールである。
本稿では,ルールベースの手法や機械学習アルゴリズムを含む,ウズベク語のシラビフィケーションに対する包括的アプローチを提案する。
実験の結果,両アプローチは高い精度を示し,99%以上であった。
論文 参考訳(メタデータ) (2023-12-25T17:46:58Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Textless Unit-to-Unit training for Many-to-Many Multilingual Speech-to-Speech Translation [65.13824257448564]
本稿では,多言語多言語音声音声合成のためのテキストレス学習手法を提案する。
音声単位を擬似テキストとして扱うことにより、音声の言語内容に焦点を合わせることができる。
提案するUTUTモデルは,音声音声合成(S2ST)だけでなく,多言語音声合成(T2S)やテキスト音声合成(T2ST)にも有効であることを示す。
論文 参考訳(メタデータ) (2023-08-03T15:47:04Z) - Multilingual context-based pronunciation learning for Text-to-Speech [13.941800219395757]
音声情報と言語知識は、テキスト音声(TTS)フロントエンドの重要な構成要素である。
複数言語で統一されたフロントエンドシステムで発音関連タスクに対処し、通常は別個のモジュールで処理する。
多言語モデルは言語やタスク間で競合するが、等価なモノリンガル解と比較するといくつかのトレードオフが存在する。
論文 参考訳(メタデータ) (2023-07-31T14:29:06Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - ERNIE-SAT: Speech and Text Joint Pretraining for Cross-Lingual
Multi-Speaker Text-to-Speech [58.93395189153713]
言語間複数話者音声合成タスクの事前学習法を拡張した。
本稿では,スペクトルと音素をランダムにマスキングする,音声・テキスト共同事前学習フレームワークを提案する。
本モデルは,話者埋め込み型マルチスピーカTS法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-11-07T13:35:16Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Unsupervised Pattern Discovery from Thematic Speech Archives Based on
Multilingual Bottleneck Features [41.951988293049205]
教師なし音響モデリングと復号化を含む2段階の手法を提案し,続いて音響単位列のパターンマイニングを行う。
提案システムは,MIT OpenCourseWare の講義記録から話題関連語句を効果的に抽出することができる。
論文 参考訳(メタデータ) (2020-11-03T20:06:48Z) - Unsupervised Cross-Modal Audio Representation Learning from Unstructured
Multilingual Text [69.55642178336953]
教師なし音声表現学習へのアプローチを提案する。
3重項ニューラルネットワークアーキテクチャに基づいて、意味論的に関連付けられたクロスモーダル情報を用いて、音声トラック関連性を推定する。
我々のアプローチは、様々なアノテーションスタイルと、このコレクションの異なる言語に不変であることを示す。
論文 参考訳(メタデータ) (2020-03-27T07:37:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。