Fugu-MT 論文翻訳(概要): Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining

論文の概要: Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining

arxiv url: http://arxiv.org/abs/2311.08323v1
Date: Tue, 14 Nov 2023 17:09:07 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-15 13:13:29.164603
Title: Open-vocabulary keyword spotting in any language through multilingual contrastive speech-phoneme pretraining
Title（参考訳）: 多言語コントラスト音声-音素事前学習による任意の言語における単語スポッティング
Authors: Jian Zhu, Farhan Samir, Changbing Yang, Jahurul Islam
Abstract要約: CLAP-IPAは,音声信号と音素的に書き起こされたキーワードや任意のフレーズの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルである。提案手法は97の未確認言語における2つのフィールドワーク音声コーパスで検証され,言語間での強い一般化性を示した。
参考スコア（独自算出の注目度）: 7.750190476971517
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In this paper, we introduce a massively multilingual speech corpora with fine-grained phonemic transcriptions, encompassing more than 115 languages from diverse language families. Based on this multilingual dataset, we propose CLAP-IPA, a multilingual phoneme-speech contrastive embedding model capable of open-vocabulary matching between speech signals and phonemically transcribed keywords or arbitrary phrases. The proposed model has been tested on two fieldwork speech corpora in 97 unseen languages, exhibiting strong generalizability across languages. Comparison with a text-based model shows that using phonemes as modeling units enables much better crosslinguistic generalization than orthographic texts.
Abstract（参考訳）: 本稿では,多様な言語族から115以上の言語を包含する,きめ細かな音素転写を持つ多言語コーパスを提案する。この多言語データセットに基づいて,音声信号と音素的に書き起こされたキーワードや任意のフレーズの開語彙マッチングが可能な多言語音声合成コントラスト埋め込みモデルCLAP-IPAを提案する。提案手法は97の未確認言語における2つのフィールドワーク音声コーパスで検証され,言語間の高い一般化性を示した。テキストベースモデルと比較すると、音素をモデリング単位として用いることで、正書法テキストよりもクロス言語的一般化がはるかに優れていることが分かる。

関連論文リスト

LASPA: Language Agnostic Speaker Disentanglement with Prefix-Tuned Cross-Attention [2.199918533021483]
アクセント、音声解剖学、言語音声構造などの声質特性の重複は、言語情報と話者情報の分離を複雑にする。これらのコンポーネントの分離は、話者認識の精度を大幅に向上させる。そこで本稿では,接頭辞付きクロスアテンションを通じて共同学習を統合する,新しい非絡み合い学習戦略を提案する。
論文参考訳（メタデータ） (2025-06-02T10:59:31Z)
Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文参考訳（メタデータ） (2025-05-26T07:21:20Z)
Cross-Lingual IPA Contrastive Learning for Zero-Shot NER [7.788300011344196]
IPA文字起こしにおける音素表現のギャップを減らすことで、高ソース言語で訓練されたモデルが低リソース言語で効果的に実行できるかを検討する。提案手法は,最高性能のベースラインと比較して,実質的な平均ゲインを示す。
論文参考訳（メタデータ） (2025-03-10T11:52:33Z)
Universal Automatic Phonetic Transcription into the International Phonetic Alphabet [21.000425416084706]
任意の言語における音声をIPA(International Phonetic Alphabet)に翻訳するための最先端モデルを提案する。我々のモデルはwav2vec 2.0に基づいており、オーディオ入力からIPAを予測するために微調整されている。我々は,我々の共通音声-IPAモデルの品質が,人間のアノテータのそれに近いことを示す。
論文参考訳（メタデータ） (2023-08-07T21:29:51Z)
Speak Foreign Languages with Your Own Voice: Cross-Lingual Neural Codec Language Modeling [92.55131711064935]
本稿では,言語間音声合成のための言語間ニューラルネットワークモデル VALL-E X を提案する。 VALL-E Xは、強い文脈内学習能力を継承し、ゼロショット言語間テキスト音声合成やゼロショット音声音声音声翻訳タスクに応用できる。未知の話者の声、感情、音響環境を保ちながら、ソース言語の1つの発話をプロンプトとして、ターゲット言語で高品質な音声を生成することができる。
論文参考訳（メタデータ） (2023-03-07T14:31:55Z)
Revisiting IPA-based Cross-lingual Text-to-speech [11.010299086810994]
International Phonetic Alphabet (IPA) は、言語間音声のクローニング(CL VC)を実現するために、TTS (cross-lingual text-to-speech) で広く使われている。本稿では,IPAを入力として用いた言語間TSモデルの構築に関する実証的な知見を報告する。実験により、IPAおよび上行シーケンスの処理方法がCLVCのパフォーマンスに無視できる影響があることが示されている。
論文参考訳（メタデータ） (2021-10-14T07:22:23Z)
Differentiable Allophone Graphs for Language-Universal Speech Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文参考訳（メタデータ） (2021-07-24T15:09:32Z)
Phonological Features for 0-shot Multilingual Speech Synthesis [50.591267188664666]
単言語モデルにおいても,トレーニング中に見つからない言語に対して,コードスイッチングが可能であることを示す。テスト時には、訓練で見たことのない音の近似を含む、新しい言語で、理解不能で、コードスイッチトされた音声を生成する。
論文参考訳（メタデータ） (2020-08-06T18:25:18Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)
AlloVera: A Multilingual Allophone Database [137.3686036294502]
AlloVeraは、218のアロフォンから14言語のための音素へのマッピングを提供する。我々は、AlloVeraで構築された「ユニバーサル」アロフォンモデルであるAllosaurusが、音声書き起こしタスクにおいて「ユニバーサル」音声モデルと言語特化モデルより優れていることを示す。
論文参考訳（メタデータ） (2020-04-17T02:02:18Z)
Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。 11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文参考訳（メタデータ） (2020-02-26T21:28:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。