Fugu-MT 論文翻訳(概要): Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

論文の概要: Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition

arxiv url: http://arxiv.org/abs/2406.02488v1
Date: Tue, 4 Jun 2024 16:59:11 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 15:10:17.559050
Title: Language-Universal Speech Attributes Modeling for Zero-Shot Multilingual Spoken Keyword Recognition
Title（参考訳）: ゼロショット多言語音声音声認識における言語大学音声属性のモデル化
Authors: Hao Yen, Pin-Jui Ku, Sabato Marco Siniscalchi, Chin-Hui Lee,
Abstract要約: エンドツーエンド自動音声キーワード認識(SKR)のための新しい言語・ユニバーサルアプローチを提案する。 Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。
参考スコア（独自算出の注目度）: 26.693942793501204
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We propose a novel language-universal approach to end-to-end automatic spoken keyword recognition (SKR) leveraging upon (i) a self-supervised pre-trained model, and (ii) a set of universal speech attributes (manner and place of articulation). Specifically, Wav2Vec2.0 is used to generate robust speech representations, followed by a linear output layer to produce attribute sequences. A non-trainable pronunciation model then maps sequences of attributes into spoken keywords in a multilingual setting. Experiments on the Multilingual Spoken Words Corpus show comparable performances to character- and phoneme-based SKR in seen languages. The inclusion of domain adversarial training (DAT) improves the proposed framework, outperforming both character- and phoneme-based SKR approaches with 13.73% and 17.22% relative word error rate (WER) reduction in seen languages, and achieves 32.14% and 19.92% WER reduction for unseen languages in zero-shot settings.
Abstract（参考訳）: 我々は、エンドツーエンドの自動音声キーワード認識(SKR)に活用する新しい言語・ユニバーサルアプローチを提案する。 (i)自己指導型事前訓練モデル及び (ii)普遍的な音声属性のセット(マンガと調音の場所) 特に、Wav2Vec2.0はロバストな音声表現を生成するために使われ、続いて線形出力層が属性列を生成する。訓練不能な発音モデルでは、属性のシーケンスを多言語設定で音声キーワードにマッピングする。 Multilingual Spoken Words Corpusの実験では、文字と音素に基づくSKRに匹敵する性能を示した。 DAT(Domain Adversarial Training)が提案されたフレームワークを改善し、文字と音素ベースのSKRアプローチを13.73%と17.22%の相対的な単語誤り率(WER)で改善し、ゼロショット設定で未確認言語に対して32.14%と19.92%のWER削減を達成した。

関連論文リスト

CUPE: Contextless Universal Phoneme Encoder for Language-Agnostic Speech Processing [5.466034990848432]
CUPEは120ミリ秒でキー音素の機能をキャプチャする軽量モデルである。 CUPEは、すべての言語に共通する基本音響パターンを学習することで、競合する言語間性能を実現する。
論文参考訳（メタデータ） (2025-08-21T07:27:10Z)
NVSpeech: An Integrated and Scalable Pipeline for Human-Like Speech Modeling with Paralinguistic Vocalizations [7.55995559331834]
パラ言語的発声は自然な音声通信に不可欠である。 NVSpeechはパラ言語的発声の認識と合成を橋渡しする。 NVSpeechは、マンダリンで表現力のある音声モデリングのための、オープンで大規模な単語レベルの注釈付きパイプラインを提供する。
論文参考訳（メタデータ） (2025-08-06T08:25:26Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文参考訳（メタデータ） (2023-11-25T17:05:21Z)
Generative Spoken Language Model based on continuous word-sized audio tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文参考訳（メタデータ） (2023-10-08T16:46:14Z)
Unified model for code-switching speech recognition and language identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文参考訳（メタデータ） (2023-06-14T21:24:11Z)
Google USM: Scaling Automatic Speech Recognition Beyond 100 Languages [76.95115818308918]
100以上の言語で自動音声認識(ASR)を行う単一大モデルであるUniversal Speech Model (USM)を導入する。これは300以上の言語にまたがる1200万時間 (M) の大規模なラベル付き多言語データセット上で、モデルのエンコーダを事前トレーニングすることで達成される。我々は,多言語事前学習とランダム投影量子化と音声-テキスト・モダリティマッチングを用いて,下流多言語ASRおよび音声-テキスト翻訳タスクの最先端性能を実現する。
論文参考訳（メタデータ） (2023-03-02T07:47:18Z)
From English to More Languages: Parameter-Efficient Model Reprogramming for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文参考訳（メタデータ） (2023-01-19T02:37:56Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Cross-lingual Low Resource Speaker Adaptation Using Phonological Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文参考訳（メタデータ） (2021-11-17T12:33:42Z)
Is Attention always needed? A Case Study on Language Identification from Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。 CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。 LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文参考訳（メタデータ） (2021-10-05T16:38:57Z)
CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。 wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文参考訳（メタデータ） (2021-07-15T15:42:43Z)
Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文参考訳（メタデータ） (2021-02-01T21:41:40Z)
Cross-lingual Spoken Language Understanding with Regularized Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文参考訳（メタデータ） (2020-09-30T08:56:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。