論文の概要: Investigating model performance in language identification: beyond
simple error statistics
- arxiv url: http://arxiv.org/abs/2305.18925v1
- Date: Tue, 30 May 2023 10:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:02:40.792977
- Title: Investigating model performance in language identification: beyond
simple error statistics
- Title(参考訳): 言語識別におけるモデル性能の調査: 単純なエラー統計を超えて
- Authors: Suzy J. Styles, Victoria Y. H. Chua, Fei Ting Woon, Hexin Liu, Leibny
Paola Garcia Perera, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels
- Abstract要約: 言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
- 参考スコア(独自算出の注目度): 28.128924654154087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language development experts need tools that can automatically identify
languages from fluent, conversational speech, and provide reliable estimates of
usage rates at the level of an individual recording. However, language
identification systems are typically evaluated on metrics such as equal error
rate and balanced accuracy, applied at the level of an entire speech corpus.
These overview metrics do not provide information about model performance at
the level of individual speakers, recordings, or units of speech with different
linguistic characteristics. Overview statistics may therefore mask systematic
errors in model performance for some subsets of the data, and consequently,
have worse performance on data derived from some subsets of human speakers,
creating a kind of algorithmic bias. In the current paper, we investigate how
well a number of language identification systems perform on individual
recordings and speech units with different linguistic properties in the MERLIon
CCS Challenge. The Challenge dataset features accented English-Mandarin
code-switched child-directed speech.
- Abstract(参考訳): 言語開発の専門家は、会話型言語から言語を自動的に識別するツールを必要とし、個々の記録のレベルでの使用率の信頼できる見積もりを提供する。
しかし、言語識別システムは通常、音声コーパス全体のレベルで適用された、等しい誤り率とバランスの取れた精度などの指標に基づいて評価される。
これらの概要指標は、個々の話者、録音、言語特性の異なる音声単位のレベルでのモデル性能に関する情報を提供しない。
したがって、概観統計は、データの一部のサブセットに対するモデル性能の体系的な誤りを隠蔽し、その結果、人間の話者の一部のサブセットから派生したデータに対するパフォーマンスが悪化し、ある種のアルゴリズムバイアスが生じる。
本稿では,merlion ccsチャレンジにおいて,言語特性の異なる個々の記録と音声単位に対して,言語識別システムがどの程度有効であるかを検討する。
チャレンジデータセットには、アクセント付き英語-中国語コード切り替わった子供向け音声が特徴である。
関連論文リスト
- Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。
大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。
本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文 参考訳(メタデータ) (2024-06-16T17:51:22Z) - An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - Learning Phonotactics from Linguistic Informants [54.086544221761486]
本モデルでは,情報理論的なポリシーの1つに従って,データポイントを反復的に選択または合成する。
提案モデルでは,情報提供者を問う項目の選択に使用する情報理論のポリシーが,完全教師付きアプローチに匹敵する,あるいはそれ以上の効率性が得られることがわかった。
論文 参考訳(メタデータ) (2024-05-08T00:18:56Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。