論文の概要: Comparison of parameters of vowel sounds of russian and english
languages
- arxiv url: http://arxiv.org/abs/2401.14890v1
- Date: Fri, 26 Jan 2024 14:15:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-29 14:49:42.212703
- Title: Comparison of parameters of vowel sounds of russian and english
languages
- Title(参考訳): ロシア語と英語の母音音のパラメータの比較
- Authors: V.I. Fedoseev, A.A. Konev, A. Yu. Yakimuk
- Abstract要約: 多言語音声認識システムでは、言語が事前に知られていない場合にしばしば発生するが、すでに受信され、処理されている。
音声の相違に応答できる一般化されたモデルが必要であり、それに応じて、所望の言語で正しく再認識される。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In multilingual speech recognition systems, a situation can often arise when
the language is not known in advance, but the signal has already been received
and is being processed. For such cases, some generalized model is needed that
will be able to respond to phonetic differences and, depending on them,
correctly recog-nize speech in the desired language. To build such a model, it
is necessary to set the values of phonetic parameters, and then compare similar
sounds, establishing significant differences.
- Abstract(参考訳): 多言語音声認識システムでは、事前に言語が分かっていない場合、しばしば発生するが、既に信号が受信され、処理されている。
このような場合、音声の相違に応答できる一般化されたモデルが必要であり、それに応じて、所望の言語で正しく再形化される。
このようなモデルを構築するには、音韻パラメータの値を設定し、類似した音を比較する必要がある。
関連論文リスト
- Word-wise intonation model for cross-language TTS systems [0.0]
提案手法は,自動データマークアップとテキスト音声合成システムへの応用に適している。
キーとなるアイデアは、単語中の強勢音節の異なる配置と結びついた変動性の部分的除去である。
提案モデルは,テキストから音声への韻律記述のツールとして,あるいはバックボーンとして使用することができる。
論文 参考訳(メタデータ) (2024-09-30T15:09:42Z) - Speechworthy Instruction-tuned Language Models [71.8586707840169]
提案手法は,学習の促進と嗜好の両面において,一般的な命令調整型LLMの音声適合性の向上を図っている。
我々は,各手法が生成した応答の音声適合性向上にどのように貢献するかを示すために,語彙的,構文的,定性的な分析を共有する。
論文 参考訳(メタデータ) (2024-09-23T02:34:42Z) - Improving Spoken Language Modeling with Phoneme Classification: A Simple Fine-tuning Approach [14.5696754689252]
音声言語モデリングの最近の進歩は、音声から直接言語を学ぶことが可能であることを示している。
音素分類に基づく微調整音声表現モデルにより、より文脈不変な表現が得られることを示す。
論文 参考訳(メタデータ) (2024-09-16T10:29:15Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Developing Acoustic Models for Automatic Speech Recognition in Swedish [6.5458610824731664]
本稿では,トレーニング可能なシステムを用いた自動連続音声認識について述べる。
この研究の目的はスウェーデン語話者のための音響モデルを構築することである。
論文 参考訳(メタデータ) (2024-04-25T12:03:14Z) - Homophone Disambiguation Reveals Patterns of Context Mixing in Speech
Transformers [12.44366147179659]
そこで本研究では,テキストモデルのための"context-mixing"の尺度を,音声言語のモデルに適用し,適用する方法について検討する。
このようなケーススタディに理想的な言語現象であるフランス語のホモフォニーを同定する。
その結果,エンコーダのみのモデルにおける表現は,これらのキューを効果的に組み込んで正しい転写を識別するのに対し,エンコーダ-デコーダモデルのエンコーダは,主にデコーダモジュールへのコンテキスト依存を捕捉するタスクを緩和することがわかった。
論文 参考訳(メタデータ) (2023-10-15T19:24:13Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。