論文の概要: LID Models are Actually Accent Classifiers: Implications and Solutions for LID on Accented Speech
- arxiv url: http://arxiv.org/abs/2506.00628v2
- Date: Wed, 11 Jun 2025 03:08:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 02:07:43.230155
- Title: LID Models are Actually Accent Classifiers: Implications and Solutions for LID on Accented Speech
- Title(参考訳): LIDモデルは実際にアクセント分類器である:アクセント音声におけるLIDの意味と解決法
- Authors: Niyati Bafna, Matthew Wiesner,
- Abstract要約: 先行研究により,LIDモデルの性能はアクセント付き音声で著しく低下することが示唆された。
LIDシステムはL2アクセント音声を話者の母語あるいは関連言語と誤分類することが多い。
単言語ASRシステムに頼ることなく,シーケンスレベルの情報をモデルに統合する手法を提案する。
- 参考スコア(独自算出の注目度): 4.654709537754806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Prior research indicates that LID model performance significantly declines on accented speech; however, the specific causes, extent, and characterization of these errors remain under-explored. (i) We identify a common failure mode on accented speech whereby LID systems often misclassify L2 accented speech as the speaker's native language or a related language. (ii) We present evidence suggesting that state-of-the-art models are invariant to permutations of short spans of speech, implying they classify on the basis of short phonotactic features indicative of accent rather than language. Our analysis reveals a simple method to enhance model robustness to accents through input chunking. (iii) We present an approach that integrates sequence-level information into our model without relying on monolingual ASR systems; this reduces accent-language confusion and significantly enhances performance on accented speech while maintaining comparable results on standard LID.
- Abstract(参考訳): 先行研究は、LIDモデルの性能がアクセント付き音声で著しく低下することを示しているが、これらの誤りの特定の原因、範囲、特徴は未解明のままである。
i) LIDシステムはL2アクセント音声を話者の母語あるいは関連言語と誤分類することが多いアクセント音声における共通の障害モードを同定する。
(II) 言語よりもアクセントを表わす短い音韻的特徴に基づいて分類し, 最先端のモデルが音声の短区間の置換に不変であることを示す証拠を提示する。
本分析により,入力チャンキングによりアクセントに対するモデルロバスト性を向上する簡単な手法が明らかとなった。
3) アクセントの混乱を低減し, アクセント付き音声の性能を向上し, 標準LIDに匹敵する結果を保ちながら, アクセント付き音声の性能を著しく向上させる手法を提案する。
関連論文リスト
- MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - XCB: an effective contextual biasing approach to bias cross-lingual phrases in speech recognition [9.03519622415822]
本研究では,言語間コンテキストバイアス(XCB)モジュールを提案する。
我々は、補助言語バイアスモジュールと言語固有の損失を統合することで、支配言語のための事前訓練されたASRモデルを強化する。
社内のコードスイッチングデータセットで行った実験結果から,本手法の有効性が検証された。
論文 参考訳(メタデータ) (2024-08-20T04:00:19Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - The Interpreter Understands Your Meaning: End-to-end Spoken Language
Understanding Aided by Speech Translation [13.352795145385645]
音声翻訳(ST)は、エンドツーエンドの音声言語理解のために、音声モデルを事前訓練する良い方法である。
我々は,本モデルが単言語および多言語意図分類に基づくベースラインよりも高い性能を達成することを示す。
また、音声要約のための新しいベンチマークデータセットを作成し、低リソース/ゼロショットを英語からフランス語またはスペイン語に転送する。
論文 参考訳(メタデータ) (2023-05-16T17:53:03Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Pre-training for Spoken Language Understanding with Joint Textual and
Phonetic Representation Learning [4.327558819000435]
音声表現を学習するための新しいテキスト音声前訓練手法を提案する。
音声言語理解ベンチマークであるFluent Speech CommandsとSNIPSの実験結果から,提案手法は強いベースラインモデルよりも有意に優れていることが示された。
論文 参考訳(メタデータ) (2021-04-21T05:19:13Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。