論文の概要: Investigating model performance in language identification: beyond
simple error statistics
- arxiv url: http://arxiv.org/abs/2305.18925v1
- Date: Tue, 30 May 2023 10:32:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-31 17:02:40.792977
- Title: Investigating model performance in language identification: beyond
simple error statistics
- Title(参考訳): 言語識別におけるモデル性能の調査: 単純なエラー統計を超えて
- Authors: Suzy J. Styles, Victoria Y. H. Chua, Fei Ting Woon, Hexin Liu, Leibny
Paola Garcia Perera, Sanjeev Khudanpur, Andy W. H. Khong, Justin Dauwels
- Abstract要約: 言語開発の専門家は、流動的で会話的なスピーチから言語を自動的に識別するツールを必要としている。
本研究では,言語特性の異なる個々の録音や音声単位に対して,多くの言語識別システムがどの程度機能するかを検討する。
- 参考スコア(独自算出の注目度): 28.128924654154087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language development experts need tools that can automatically identify
languages from fluent, conversational speech, and provide reliable estimates of
usage rates at the level of an individual recording. However, language
identification systems are typically evaluated on metrics such as equal error
rate and balanced accuracy, applied at the level of an entire speech corpus.
These overview metrics do not provide information about model performance at
the level of individual speakers, recordings, or units of speech with different
linguistic characteristics. Overview statistics may therefore mask systematic
errors in model performance for some subsets of the data, and consequently,
have worse performance on data derived from some subsets of human speakers,
creating a kind of algorithmic bias. In the current paper, we investigate how
well a number of language identification systems perform on individual
recordings and speech units with different linguistic properties in the MERLIon
CCS Challenge. The Challenge dataset features accented English-Mandarin
code-switched child-directed speech.
- Abstract(参考訳): 言語開発の専門家は、会話型言語から言語を自動的に識別するツールを必要とし、個々の記録のレベルでの使用率の信頼できる見積もりを提供する。
しかし、言語識別システムは通常、音声コーパス全体のレベルで適用された、等しい誤り率とバランスの取れた精度などの指標に基づいて評価される。
これらの概要指標は、個々の話者、録音、言語特性の異なる音声単位のレベルでのモデル性能に関する情報を提供しない。
したがって、概観統計は、データの一部のサブセットに対するモデル性能の体系的な誤りを隠蔽し、その結果、人間の話者の一部のサブセットから派生したデータに対するパフォーマンスが悪化し、ある種のアルゴリズムバイアスが生じる。
本稿では,merlion ccsチャレンジにおいて,言語特性の異なる個々の記録と音声単位に対して,言語識別システムがどの程度有効であるかを検討する。
チャレンジデータセットには、アクセント付き英語-中国語コード切り替わった子供向け音声が特徴である。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - SpeechLMScore: Evaluating speech generation using speech language model [43.20067175503602]
本稿では,音声認識モデルを用いて生成した音声を評価するための教師なしメトリックであるSpeechLMScoreを提案する。
人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークです。
評価結果は,提案手法が音声生成タスクにおける評価スコアと有望な相関を示すことを示す。
論文 参考訳(メタデータ) (2022-12-08T21:00:15Z) - Improving speaker de-identification with functional data analysis of f0
trajectories [10.809893662563926]
フォーマント修正は、訓練データを必要としない話者識別のための、シンプルで効果的な方法である。
本研究は, 簡易な定式化シフトに加えて, 関数データ解析に基づくf0トラジェクトリを操作する新しい話者識別手法を提案する。
提案手法は,音素的に制御可能なピッチ特性を最適に識別し,フォルマントに基づく話者識別を最大25%改善する。
論文 参考訳(メタデータ) (2022-03-31T01:34:15Z) - Integrating Knowledge in End-to-End Automatic Speech Recognition for
Mandarin-English Code-Switching [41.88097793717185]
Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。
本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
論文 参考訳(メタデータ) (2021-12-19T17:31:15Z) - Cross-lingual Low Resource Speaker Adaptation Using Phonological
Features [2.8080708404213373]
我々は、異なる言語に共通する音韻的特徴のセットに基づいて、言語に依存しないマルチスピーカモデルを訓練する。
対象話者データの32と8の発声で、対応する文献に匹敵する高い話者類似度スコアと自然性を得る。
論文 参考訳(メタデータ) (2021-11-17T12:33:42Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Leveraging Pre-trained Language Model for Speech Sentiment Analysis [58.78839114092951]
本研究では、事前学習された言語モデルを用いて、文章の感情情報を学習し、音声の感情分析を行う。
本稿では,言語モデルを用いた擬似ラベルに基づく半教師付き訓練戦略を提案する。
論文 参考訳(メタデータ) (2021-06-11T20:15:21Z) - Generative Spoken Language Modeling from Raw Audio [42.153136032037175]
生成音声言語モデリングは、(テキストやラベルなしで)生音声のみから、言語の音響的特徴と言語的特徴を共同で学習することを伴う
本稿では,2つのエンドツーエンドタスクの音響的品質と言語的品質の観点から,生成した出力を自動的に評価する指標を提案する。
我々は、離散音声エンコーダ(離散音声単位を返却する)、生成言語モデル(擬似テキスト単位で学習する)、音声デコーダからなるベースラインシステムをテストする。
論文 参考訳(メタデータ) (2021-02-01T21:41:40Z) - Curious Case of Language Generation Evaluation Metrics: A Cautionary
Tale [52.663117551150954]
イメージキャプションや機械翻訳などのタスクを評価するデファクトメトリクスとして、いくつかの一般的な指標が残っている。
これは、使いやすさが原因でもあり、また、研究者がそれらを見て解釈する方法を知りたがっているためでもある。
本稿では,モデルの自動評価方法について,コミュニティにより慎重に検討するよう促す。
論文 参考訳(メタデータ) (2020-10-26T13:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。