論文の概要: Prak: An automatic phonetic alignment tool for Czech
- arxiv url: http://arxiv.org/abs/2304.08431v1
- Date: Mon, 17 Apr 2023 16:51:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-18 14:11:04.215535
- Title: Prak: An automatic phonetic alignment tool for Czech
- Title(参考訳): prak:チェコ語のための自動音声アライメントツール
- Authors: V\'aclav Han\v{z}l, Adl\'eta Han\v{z}lov\'a
- Abstract要約: 無料のオープンソースツールはチェコ語のテキストから電話シーケンスを生成し、音声で時間調整する。
チェコ語発音生成器は、言語の論理をキャプチャする単純なルールベースのブロックで構成されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Labeling speech down to the identity and time boundaries of phones is a
labor-intensive part of phonetic research. To simplify this work, we created a
free open-source tool generating phone sequences from Czech text and
time-aligning them with audio.
Low architecture complexity makes the design approachable for students of
phonetics. Acoustic model ReLU NN with 56k weights was trained using PyTorch on
small CommonVoice data. Alignment and variant selection decoder is implemented
in Python with matrix library.
A Czech pronunciation generator is composed of simple rule-based blocks
capturing the logic of the language where possible, allowing modification of
transcription approach details.
Compared to tools used until now, data preparation efficiency improved, the
tool is usable on Mac, Linux and Windows in Praat GUI or command line, achieves
mostly correct pronunciation variant choice including glottal stop detection,
algorithmically captures most of Czech assimilation logic and is both didactic
and practical.
- Abstract(参考訳): 電話のアイデンティティと時間境界に音声をラベル付けすることは、音声研究の労働集約的な部分である。
この作業を簡略化するために、チェコ語のテキストから電話シーケンスを生成し、音声で時間調整する無料のオープンソースツールを作成しました。
アーキテクチャの複雑さが低いため、設計は音声学の学生に近づきやすい。
56kの重みを持つ音響モデルReLU NNは、小さなCommonVoiceデータに基づいてPyTorchを用いて訓練された。
アライメントと変種選択デコーダはpythonとマトリックスライブラリで実装されている。
チェコ語発音生成器は、可能であれば言語論理をキャプチャする単純なルールベースのブロックで構成され、転写アプローチの詳細の変更を可能にする。
これまでのツールと比較すると、データ準備の効率が向上し、Praat GUIやコマンドラインでMac、Linux、Windowsで使用でき、スロットル停止検出を含む正しい発音の選択肢をほとんど達成し、アルゴリズムによってチェコの同化ロジックのほとんどをキャプチャし、実践的かつ実用的である。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Pronunciation Generation for Foreign Language Words in Intra-Sentential
Code-Switching Speech Recognition [14.024346215923972]
コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。
本稿では,限られたコードスイッチングデータを駆動材料として利用し,コードスイッチング認識技術を迅速に開発するためのショートカットを探索する。
論文 参考訳(メタデータ) (2022-10-26T13:19:35Z) - Shennong: a Python toolbox for audio speech features extraction [15.816237141746562]
ShennongはPythonのツールボックスであり、音声特徴抽出のためのコマンドラインユーティリティである。
スペクトル時間フィルタ、事前訓練されたニューラルネットワーク、ピッチ推定器、話者正規化方法など、幅広い確立された最先端技術アルゴリズムを実装している。
本稿では,携帯電話の識別タスクにおける音声特徴量の比較,訓練に使用する音声時間関数としての声道長正規化モデルの解析,様々な雑音条件下でのピッチ推定アルゴリズムの比較の3つの応用について述べる。
論文 参考訳(メタデータ) (2021-12-10T14:08:52Z) - "Listen, Understand and Translate": Triple Supervision Decouples
End-to-end Speech-to-text Translation [49.610188741500274]
エンドツーエンドの音声テキスト翻訳(ST)は、ソース言語で音声を取り、ターゲット言語でテキストを出力する。
既存の方法は並列コーパスの量によって制限される。
並列STコーパスで信号を完全に活用するシステムを構築した。
論文 参考訳(メタデータ) (2020-09-21T09:19:07Z) - RECOApy: Data recording, pre-processing and phonetic transcription for
end-to-end speech-based applications [4.619541348328938]
RECOApyは、エンドツーエンドの音声ベースのアプリケーションに必要なデータ記録と前処理のステップを合理化する。
このツールは、音声記録、スペクトログラム、波形解析、発話レベルの正規化、サイレントトリミングのための使い易いインタフェースを実装している。
Grapheme-to-phoneme(G2P)コンバータは、Wiktionaryのオンラインコラボレーションリソースから抽出されたレキシコンに基づいてトレーニングされたディープニューラルネットワーク(DNN)ベースのアーキテクチャである。
論文 参考訳(メタデータ) (2020-09-11T15:26:55Z) - KoSpeech: Open-Source Toolkit for End-to-End Korean Speech Recognition [1.7955614278088239]
KoSpeechは、ディープラーニングライブラリPyTorchをベースにした、エンドツーエンドの韓国自動音声認識(ASR)ツールキットである。
KsponSpeechコーパスの事前処理手法とベンチマークのベースラインモデルを提案する。
KsponSpeech corpusでは音響モデルのみで10.31%の文字誤り率(CER)を達成した。
論文 参考訳(メタデータ) (2020-09-07T13:25:36Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。