論文の概要: Finnish Dialect Identification: The Effect of Audio and Text
- arxiv url: http://arxiv.org/abs/2111.03800v1
- Date: Sat, 6 Nov 2021 04:25:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-11 05:11:13.114568
- Title: Finnish Dialect Identification: The Effect of Audio and Text
- Title(参考訳): フィンランド語の方言識別:音声とテキストの効果
- Authors: Mika H\"am\"al\"ainen and Khalid Alnajjar and Niko Partanen and Jack
Rueter
- Abstract要約: 本稿では,話者の方言を自動的に検出する最初の手法を提案する。
以上の結果から,両モードを組み合わせることで,最高の精度が得られていることがわかった。
- 参考スコア(独自算出の注目度): 1.0896567381206714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Finnish is a language with multiple dialects that not only differ from each
other in terms of accent (pronunciation) but also in terms of morphological
forms and lexical choice. We present the first approach to automatically detect
the dialect of a speaker based on a dialect transcript and transcript with
audio recording in a dataset consisting of 23 different dialects. Our results
show that the best accuracy is received by combining both of the modalities, as
text only reaches to an overall accuracy of 57\%, where as text and audio reach
to 85\%. Our code, models and data have been released openly on Github and
Zenodo.
- Abstract(参考訳): フィンランド語は複数の方言を持つ言語であり、アクセント(発音)だけでなく、形態的形態や語彙的選択の観点からも異なる。
そこで本研究では,23の方言からなるデータセットを用いて,方言の転写と音声記録に基づく話者の方言を自動的に検出する手法を提案する。
以上の結果から,両モードを組み合わせることで,テキストと音声の総合的精度が57 %に達し,テキストと音声が85 %に達することにより,最高の精度が得られた。
私たちのコード、モデル、データはgithubとzenodoで公開されています。
関連論文リスト
- The Development of a Comprehensive Spanish Dictionary for Phonetic and Lexical Tagging in Socio-phonetic Research (ESPADA) [0.0]
スペイン語の方言の変種の大部分で使用可能な、スペイン語の包括的な発音辞書(ESPADA)の作成について紹介する。
ESPADAは16か国の単語を表わす628,000以上のエントリを持つ最も完全な辞書である。
これは、スペイン語の社会音声学の枠組みにおける方言研究を強化する完全なオープンソースツールを社会音声学研究者に提供することを目的としている。
論文 参考訳(メタデータ) (2024-07-22T04:51:33Z) - Voices Unheard: NLP Resources and Models for Yorùbá Regional Dialects [72.18753241750964]
Yorub'aは、約4700万人の話者を持つアフリカの言語である。
アフリカ語のためのNLP技術開発への最近の取り組みは、彼らの標準方言に焦点を当てている。
我々は、このギャップを埋めるために、新しい高品質のパラレルテキストと音声コーパスを導入する。
論文 参考訳(メタデータ) (2024-06-27T22:38:04Z) - Towards spoken dialect identification of Irish [5.1121440213561335]
アイルランド語は方言やアクセントの多様性に富んでいる。
アイルランド語ASRの方言バイアスを研究する最近の研究によると、アルスター方言のパフォーマンスはコンナヒト方言やマンスター方言よりも一貫して劣っている。
本研究では,アイルランド語の方言識別について検討し,そのようなシステムを音声認識パイプラインに組み込むことを目的とした。
論文 参考訳(メタデータ) (2023-07-14T16:03:09Z) - AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - End-to-End Automatic Speech Recognition model for the Sudanese Dialect [0.0]
本稿では,スーダン方言における音声認識モデルの設計の可能性を検討する。
本稿では,スーダン方言の概要と表現資源の収集作業,および質素なデータセット構築のための前処理について述べる。
設計されたモデルは、現在の認識タスクに関するいくつかの洞察を与え、平均的なラベルエラーレート73.67%に達した。
論文 参考訳(メタデータ) (2022-12-21T07:35:33Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Automatic Dialect Density Estimation for African American English [74.44807604000967]
アフリカ・アメリカン・イングリッシュ(AAE)方言の方言密度の自動予測について検討する。
方言密度は、非標準方言の特徴を含む発話における単語の割合として定義される。
このデータベースでは,AAE音声に対する予測された真理弁証密度と地上の真理弁証密度との間に有意な相関関係を示す。
論文 参考訳(メタデータ) (2022-04-03T01:34:48Z) - English Accent Accuracy Analysis in a State-of-the-Art Automatic Speech
Recognition System [3.4888132404740797]
様々なラベル付き英語アクセントを持つコーパスからの未認識データを用いて,最先端の自動音声認識モデルを評価する。
本研究は,アクセントの多様性に関して,訓練コーパスで最も普及しているアクセントに有利な正確性バイアスが存在することを示す。
論文 参考訳(メタデータ) (2021-05-09T08:24:33Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - Learning to Recognize Dialect Features [21.277962038423123]
本稿では,方言の特徴検出の課題を紹介するとともに,2つのマルチタスク学習手法を提案する。
言語学者は通常、方言の特徴をどのように定義するかに基づいて、モデルを少数の最小のペアでトレーニングします。
論文 参考訳(メタデータ) (2020-10-23T23:25:00Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。