論文の概要: Universal Automatic Phonetic Transcription into the International
Phonetic Alphabet
- arxiv url: http://arxiv.org/abs/2308.03917v1
- Date: Mon, 7 Aug 2023 21:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-09 14:56:00.129048
- Title: Universal Automatic Phonetic Transcription into the International
Phonetic Alphabet
- Title(参考訳): 国際音声アルファベットへのユニバーサル自動音声転写
- Authors: Chihiro Taguchi, Yusuke Sakai, Parisa Haghani, David Chiang
- Abstract要約: 任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。
我々のモデルはwav2vec 2.0に基づいており、オーディオ入力からIPAを予測するために微調整されている。
我々は,我々の共通音声-IPAモデルの品質が,人間のアノテータのそれに近いことを示す。
- 参考スコア(独自算出の注目度): 21.000425416084706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a state-of-the-art model for transcribing speech in any
language into the International Phonetic Alphabet (IPA). Transcription of
spoken languages into IPA is an essential yet time-consuming process in
language documentation, and even partially automating this process has the
potential to drastically speed up the documentation of endangered languages.
Like the previous best speech-to-IPA model (Wav2Vec2Phoneme), our model is
based on wav2vec 2.0 and is fine-tuned to predict IPA from audio input. We use
training data from seven languages from CommonVoice 11.0, transcribed into IPA
semi-automatically. Although this training dataset is much smaller than
Wav2Vec2Phoneme's, its higher quality lets our model achieve comparable or
better results. Furthermore, we show that the quality of our universal
speech-to-IPA models is close to that of human annotators.
- Abstract(参考訳): 本稿では,任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。
音声言語をIPAに転写することは、言語ドキュメントにおいて必須だが時間を要するプロセスであり、部分的に自動化しても、絶滅危惧言語のドキュメントを劇的にスピードアップする可能性がある。
従来の最高の音声-IPAモデル(Wav2Vec2Phoneme)と同様に、我々のモデルはwav2vec 2.0に基づいており、音声入力からIPAを予測するために微調整されている。
我々はCommonVoice 11.0の7言語からのトレーニングデータを使用し、半自動でIPAに書き起こした。
このトレーニングデータセットは、Wav2Vec2Phonemeよりもはるかに小さいが、その高品質により、私たちのモデルは同等またはより良い結果を達成することができる。
さらに,我々の共通音声-IPAモデルの品質は,人間のアノテータのそれに近いことを示す。
関連論文リスト
- The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - Character-Level Bangla Text-to-IPA Transcription Using Transformer
Architecture with Sequence Alignment [0.0]
International Phonetic Alphabet (IPA) は、言語学習と理解において不可欠である。
ブータンは広く使われている言語の一つとして7番目であり、その領域でIPAを必要としている。
本研究では,文字レベルと記号レベルの変換器に基づくシーケンス・ツー・シーケンス・モデルを用いて,各バングラ語のIPAを取得する。
論文 参考訳(メタデータ) (2023-11-07T08:20:06Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。
これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。
我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文 参考訳(メタデータ) (2023-03-02T07:47:18Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。
テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文 参考訳(メタデータ) (2020-08-06T18:25:18Z) - GIPFA: Generating IPA Pronunciation from Audio [0.0]
本研究では,単語のIPA発音を自動的に抽出するニューラルネットワーク(ANN)モデルについて検討する。
フランスのウィキメディア辞書に基づいて、我々のモデルを訓練し、テストされたIPA発音の75%を正しく予測した。
論文 参考訳(メタデータ) (2020-06-13T06:14:11Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。
我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-04-17T02:02:18Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。