論文の概要: GIPFA: Generating IPA Pronunciation from Audio
- arxiv url: http://arxiv.org/abs/2006.07573v2
- Date: Tue, 21 Sep 2021 19:53:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-21 21:27:06.166381
- Title: GIPFA: Generating IPA Pronunciation from Audio
- Title(参考訳): GIPFA: 音声からのIPA発音の生成
- Authors: Xavier Marjou
- Abstract要約: 本研究では,単語のIPA発音を自動的に抽出するニューラルネットワーク(ANN)モデルについて検討する。
フランスのウィキメディア辞書に基づいて、我々のモデルを訓練し、テストされたIPA発音の75%を正しく予測した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Transcribing spoken audio samples into the International Phonetic Alphabet
(IPA) has long been reserved for experts. In this study, we examine the use of
an Artificial Neural Network (ANN) model to automatically extract the IPA
phonemic pronunciation of a word based on its audio pronunciation, hence its
name Generating IPA Pronunciation From Audio (GIPFA). Based on the French
Wikimedia dictionary, we trained our model which then correctly predicted 75%
of the IPA pronunciations tested. Interestingly, by studying inference errors,
the model made it possible to highlight possible errors in the dataset as well
as to identify the closest phonemes in French.
- Abstract(参考訳): 音声サンプルを国際音素アルファベット(ipa)に書き込むことは長年、専門家に留まってきた。
本研究では,その発音に基づいて単語のIPA発音を自動的に抽出するニューラルネットワーク(ANN)モデルについて検討し,その名称をGIPFA(Generating IPA Pronunciation From Audio)とした。
フランスのウィキメディア辞書に基づき、我々はモデルをトレーニングし、テストされたipa発音の75%を正しく予測した。
興味深いことに、推論エラーを研究することで、このモデルはデータセットの可能なエラーを強調したり、フランス語で最も近い音素を特定することを可能にする。
関連論文リスト
- IPA Transcription of Bengali Texts [0.2113150621171959]
国際音声アルファベット(IPA)は、言語で音素を体系化する。
ベンガル音韻学と音声学では、IPA標準とベンガル中核音素に関する学術的な議論が続いている。
この研究は、先行研究を検証し、現在および潜在的な問題を特定し、ベンガルのIPA標準の枠組みを提案する。
論文 参考訳(メタデータ) (2024-03-29T09:33:34Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment [0.0]
International Phonetic Alphabet (IPA) は、言語学習と理解において不可欠である。
ブータンは広く使われている言語の一つとして7番目であり、その領域でIPAを必要としている。
本研究では,文字レベルと記号レベルの変換器に基づくシーケンス・ツー・シーケンス・モデルを用いて,各バングラ語のIPAを取得する。
論文 参考訳(メタデータ) (2023-11-07T08:20:06Z) - Universal Automatic Phonetic Transcription into the International
Phonetic Alphabet [21.000425416084706]
任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。
我々のモデルはwav2vec 2.0に基づいており、オーディオ入力からIPAを予測するために微調整されている。
我々は,我々の共通音声-IPAモデルの品質が,人間のアノテータのそれに近いことを示す。
論文 参考訳(メタデータ) (2023-08-07T21:29:51Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec
Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。
VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。
未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文 参考訳(メタデータ) (2023-03-07T14:31:55Z) - IPA-CLIP: Integrating Phonetic Priors into Vision and Language
Pretraining [8.129944388402839]
本稿では,コントラスト言語-画像事前学習(CLIP)に先行音声を挿入する。
IPA-CLIPはこの発音エンコーダと元のCLIPエンコーダ(画像とテキスト)からなる。
論文 参考訳(メタデータ) (2023-03-06T13:59:37Z) - Dict-TTS: Learning to Pronounce with Prior Dictionary Knowledge for
Text-to-Speech [88.22544315633687]
ポリホンの曖昧さは, 音声合成システムにおいて, 自然なテキストシーケンスから正確な発音知識を抽出することを目的としている。
オンラインウェブサイト辞書を用いた意味認識型テキスト音声合成モデルであるDict-TTSを提案する。
3つの言語による実験結果から,我々のモデルは発音精度においていくつかの強いベースラインモデルより優れていることが示された。
論文 参考訳(メタデータ) (2022-06-05T10:50:34Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。