論文の概要: ZIPA: A family of efficient models for multilingual phone recognition
- arxiv url: http://arxiv.org/abs/2505.23170v1
- Date: Thu, 29 May 2025 07:08:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.724498
- Title: ZIPA: A family of efficient models for multilingual phone recognition
- Title(参考訳): ZIPA:多言語音声認識のための効率的なモデル群
- Authors: Jian Zhu, Farhan Samir, Eleanor Chodroff, David R. Mortensen,
- Abstract要約: ZIPAは、言語横断音声認識の最先端性能を向上する効率的な音声モデルのファミリーである。
IPAPack++は17,132時間の正規化音声書き起こしが可能な大規模多言語音声コーパスである。
- 参考スコア(独自算出の注目度): 13.823868439481737
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We present ZIPA, a family of efficient speech models that advances the state-of-the-art performance of crosslinguistic phone recognition. We first curated IPAPack++, a large-scale multilingual speech corpus with 17,132 hours of normalized phone transcriptions and a novel evaluation set capturing unseen languages and sociophonetic variation. With the large-scale training data, ZIPA, including transducer (ZIPA-T) and CTC-based (ZIPA-CR) variants, leverage the efficient Zipformer backbones and outperform existing phone recognition systems with much fewer parameters. Further scaling via noisy student training on 11,000 hours of pseudo-labeled multilingual data yields further improvement. While ZIPA achieves strong performance on benchmarks, error analysis reveals persistent limitations in modeling sociophonetic diversity, underscoring challenges for future research.
- Abstract(参考訳): 本稿では,言語横断音声認識の最先端性能を向上する効率的な音声モデルであるZIPAを提案する。
IPAPack++は17,132時間の正規化電話の書き起こしと、未知の言語と社会音の変動を捉えた新しい評価セットである。
大規模なトレーニングデータでは、Transducer(ZIPA-T)やCTCベースのZIPA-CR(ZIPA-CR)を含むZIPAは、効率的なZipformerバックボーンを活用し、パラメータがはるかに少ない既存の音声認識システムより優れている。
擬似ラベル付き多言語データの11,000時間における雑音の多い学生訓練によるさらなるスケーリングは、さらなる改善をもたらす。
ZIPAはベンチマーク上で高い性能を達成するが、エラー解析は社会音韻の多様性をモデル化する際の永続的な制限を明らかにし、将来の研究の課題を浮き彫りにする。
関連論文リスト
- Cross-Lingual IPA Contrastive Learning for Zero-Shot NER [7.788300011344196]
IPA文字起こしにおける音素表現のギャップを減らすことで、高ソース言語で訓練されたモデルが低リソース言語で効果的に実行できるかを検討する。
提案手法は,最高性能のベースラインと比較して,実質的な平均ゲインを示す。
論文 参考訳(メタデータ) (2025-03-10T11:52:33Z) - PolyIPA -- Multilingual Phoneme-to-Grapheme Conversion Model [0.0]
PolyIPAは、多言語名の文字化のために設計された、新しい多言語音素-音素変換モデルである。
データ拡張のために2つのヘルパーモデルが開発されている。言語間での音響類似性を見つけるためのIPA2vecと、音素表記のバリエーションを扱うための類似IPAである。
このモデルは平均的な文字誤り率 0.055 と文字レベルのBLEUスコア 0.914 を達成し、特に浅い正書法を持つ言語では高い性能を示す。
論文 参考訳(メタデータ) (2024-12-12T09:29:59Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision [16.992058149317753]
本稿では、データ効率自動音声認識(MCL-ASR)に対する弱音声指導による事前学習のアプローチについて検討する。
我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。
MCL-ASRにおける音素モデルの有効性を示す実験では, 未知言語に対する音声認識, 数ショットのデータ量の違いによる言語間のクロスリンガル性能, 破滅的な忘れ込み, 訓練効率を克服した。
論文 参考訳(メタデータ) (2024-06-04T09:56:05Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - The taste of IPA: Towards open-vocabulary keyword spotting and forced alignment in any language [7.0944623704102625]
音声処理のための音素モデルにより、未知の言語に対して強い言語横断的一般化が達成できることを示す。
任意の音声信号と音素シーケンスの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルであるCLAP-IPAを提案する。
論文 参考訳(メタデータ) (2023-11-14T17:09:07Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。
11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。
我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文 参考訳(メタデータ) (2020-02-26T21:28:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。