論文の概要: PRODIS - a speech database and a phoneme-based language model for the study of predictability effects in Polish
- arxiv url: http://arxiv.org/abs/2404.10112v1
- Date: Mon, 15 Apr 2024 20:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-17 18:51:25.484638
- Title: PRODIS - a speech database and a phoneme-based language model for the study of predictability effects in Polish
- Title(参考訳): PRODIS - ポーランドにおける予測可能性効果研究のための音声データベースと音素に基づく言語モデル
- Authors: Zofia Malisz, Jan Foremski, Małgorzata Kul,
- Abstract要約: ポーランド語の音声データベースと音素レベル言語モデルを提案する。
このデータベースは、優れた音響品質のポーランド語音声コーパスとして初めて、広く公開されている。
- 参考スコア(独自算出の注目度): 1.2016264781280588
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present a speech database and a phoneme-level language model of Polish. The database and model are designed for the analysis of prosodic and discourse factors and their impact on acoustic parameters in interaction with predictability effects. The database is also the first large, publicly available Polish speech corpus of excellent acoustic quality that can be used for phonetic analysis and training of multi-speaker speech technology systems. The speech in the database is processed in a pipeline that achieves a 90% degree of automation. It incorporates state-of-the-art, freely available tools enabling database expansion or adaptation to additional languages.
- Abstract(参考訳): ポーランド語の音声データベースと音素レベル言語モデルを提案する。
データベースとモデルは,韻律的および談話的要因の分析と,予測可能性効果との相互作用における音響的パラメータへの影響のために設計されている。
また、このデータベースは、多話者音声技術の音声分析と訓練に使用できる優れた音響品質を持つポーランド語音声コーパスとして、初めて公開された。
データベース内の音声は、90%の自動化を実現するパイプラインで処理される。
データベースの拡張や追加言語への適応を可能にする最先端で無償のツールが組み込まれている。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - LIP-RTVE: An Audiovisual Database for Continuous Spanish in the Wild [0.0]
本稿では,制約のない自然スペイン語を扱うための半自動注釈付き音声視覚データベースを提案する。
隠れマルコフモデルを用いて話者に依存しないシナリオと話者に依存しないシナリオの両方の結果を報告する。
論文 参考訳(メタデータ) (2023-11-21T09:12:21Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Analysing the Impact of Audio Quality on the Use of Naturalistic
Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。
近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。
音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文 参考訳(メタデータ) (2023-05-03T08:25:37Z) - Applying Feature Underspecified Lexicon Phonological Features in
Multilingual Text-to-Speech [1.9688095374610102]
ARPABET/pinyinをSAMPA/SAMPA-SCにマッピングし,音声学的特徴について検討した。
このマッピングは、2つの言語でネイティブ、非ネイティブ、コードスイッチングされたスピーチを成功させるかどうかテストされた。
論文 参考訳(メタデータ) (2022-04-14T21:04:55Z) - Deep Learning Based Assessment of Synthetic Speech Naturalness [14.463987018380468]
合成音声の自然性に対する新たな客観的予測モデルを提案する。
Text-To-SpeechまたはVoice Conversionシステムの評価に使用できる。
論文 参考訳(メタデータ) (2021-04-23T16:05:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。