論文の概要: Improving Language Identification for Multilingual Speakers
- arxiv url: http://arxiv.org/abs/2001.11019v1
- Date: Wed, 29 Jan 2020 18:58:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 21:04:01.765794
- Title: Improving Language Identification for Multilingual Speakers
- Title(参考訳): 多言語話者のための言語識別の改善
- Authors: Andrew Titus, Jan Silovsky, Nanxin Chen, Roger Hsiao, Mary Young and
Arnab Ghoshal
- Abstract要約: 近年、音声言語識別(LID)技術は、大きく異なる言語を識別することから、非常に類似した言語や同じ言語の方言を識別することまで改善されてきた。
LID技術を利用する多くのシステムの主要なターゲットであるにもかかわらず、多言語話者の言語に対する差別がほとんど無視されてきた側面の1つである。
本研究では,ほとんどの言語の組み合わせにおいて,LIDシステムは高い平均精度を持ちながら,アクセント付き音声が存在する場合には,他の言語よりも大幅に性能が低いことを示す。
- 参考スコア(独自算出の注目度): 12.032095029281441
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spoken language identification (LID) technologies have improved in recent
years from discriminating largely distinct languages to discriminating highly
similar languages or even dialects of the same language. One aspect that has
been mostly neglected, however, is discrimination of languages for multilingual
speakers, despite being a primary target audience of many systems that utilize
LID technologies. As we show in this work, LID systems can have a high average
accuracy for most combinations of languages while greatly underperforming for
others when accented speech is present. We address this by using
coarser-grained targets for the acoustic LID model and integrating its outputs
with interaction context signals in a context-aware model to tailor the system
to each user. This combined system achieves an average 97% accuracy across all
language combinations while improving worst-case accuracy by over 60% relative
to our baseline.
- Abstract(参考訳): 近年、音声言語識別(LID)技術は、大きく異なる言語を識別することから、非常に類似した言語や同じ言語の方言を識別することまで改善されてきた。
しかし、ほとんど無視されている側面の1つは、lid技術を利用する多くのシステムの主要なターゲットオーディエンスであるにもかかわらず、多言語話者の言語識別である。
この研究で示すように、LIDシステムは、ほとんどの言語の組み合わせに対して高い平均精度を持ち、アクセント付き音声が存在する場合、他の言語では大幅に性能が劣る。
本稿では,音響蓋モデルに対する粒度の粗いターゲットを用い,その出力をコンテキスト認識モデルにおける対話的コンテキスト信号と統合することで,システムをユーザ毎に調整する。
この組み合わせシステムは、全ての言語の組み合わせで平均97%の精度を達成し、最悪の場合の精度をベースラインに対して60%以上向上させる。
関連論文リスト
- Lens: Rethinking Multilingual Enhancement for Large Language Models [70.85065197789639]
Lensは、大規模言語モデル(LLM)の多言語機能を強化する新しいアプローチである
LLMの上位層から言語に依存しない、言語固有のサブ空間内の隠された表現を操作できる。
既存のポストトレーニング手法に比べて計算資源がはるかに少ないため、優れた結果が得られる。
論文 参考訳(メタデータ) (2024-10-06T08:51:30Z) - Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。
英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。
本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文 参考訳(メタデータ) (2024-09-17T08:36:45Z) - Exploring Spoken Language Identification Strategies for Automatic Transcription of Multilingual Broadcast and Institutional Speech [3.812148920168377]
本稿では,話者ダイアリゼーションと言語識別からなるケースケードシステムを提案する。
結果から,提案システムは低言語分類と言語ダイアリゼーション誤り率をしばしば達成することがわかった。
同時に、モノリンガル音声における音声認識に悪影響を及ぼさない。
論文 参考訳(メタデータ) (2024-06-13T16:27:56Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Investigating the Impact of Cross-lingual Acoustic-Phonetic Similarities
on Multilingual Speech Recognition [31.575930914290762]
言語間音響-音声の類似性を調べるために, 新たなデータ駆動手法を提案する。
ディープニューラルネットワークは、異なる音響モデルからの分布を直接的に同等の形式に変換するためのマッピングネットワークとして訓練されている。
モノリンガルに比べて8%の相対的な改善が達成されている。
論文 参考訳(メタデータ) (2022-07-07T15:55:41Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。