論文の概要: Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for
Ainu Language
- arxiv url: http://arxiv.org/abs/2002.06675v3
- Date: Sat, 16 May 2020 12:53:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 18:15:50.734745
- Title: Speech Corpus of Ainu Folklore and End-to-end Speech Recognition for
Ainu Language
- Title(参考訳): アイヌ語話者の音声コーパスとアイヌ語話者のエンドツーエンド音声認識
- Authors: Kohei Matsuura, Sei Ueno, Masato Mimura, Shinsuke Sakai, Tatsuya
Kawahara
- Abstract要約: アイヌ語(アイヌ語: Ainu language)は、アイヌの民族の1つ。
ユネスコによって危惧され、言語遺産のアーカイブと文書化が最重要視されている。
我々は,注釈付き言語アーカイブの開発に寄与するため,アイヌ語の自動音声認識(ASR)プロジェクトを開始した。
- 参考スコア(独自算出の注目度): 32.6535407800833
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ainu is an unwritten language that has been spoken by Ainu people who are one
of the ethnic groups in Japan. It is recognized as critically endangered by
UNESCO and archiving and documentation of its language heritage is of paramount
importance. Although a considerable amount of voice recordings of Ainu folklore
has been produced and accumulated to save their culture, only a quite limited
parts of them are transcribed so far. Thus, we started a project of automatic
speech recognition (ASR) for the Ainu language in order to contribute to the
development of annotated language archives. In this paper, we report speech
corpus development and the structure and performance of end-to-end ASR for
Ainu. We investigated four modeling units (phone, syllable, word piece, and
word) and found that the syllable-based model performed best in terms of both
word and phone recognition accuracy, which were about 60% and over 85%
respectively in speaker-open condition. Furthermore, word and phone accuracy of
80% and 90% has been achieved in a speaker-closed setting. We also found out
that a multilingual ASR training with additional speech corpora of English and
Japanese further improves the speaker-open test accuracy.
- Abstract(参考訳): アイヌ語(英語: ainu)は、日本の民族集団であるアイヌ人が話していた言語である。
ユネスコによって危惧され、言語遺産のアーカイブと文書化が最重要視されている。
アイヌの民話のかなりの音声録音が制作・蓄積され、彼らの文化を救ったが、ごく一部しか書き起こされていない。
そこで我々は,注釈付き言語アーカイブの開発に寄与するために,アイヌ語の自動音声認識(ASR)プロジェクトを開始した。
本稿では,アイヌにおける音声コーパスの発達とASRの構造と性能について報告する。
4つのモデリングユニット(音節、音節、単語片、単語)を調査し、音節ベースのモデルは単語と音声認識の精度において、それぞれ約60%と85%のそれぞれが話者開放状態において最高の性能を示した。
さらに、話者閉鎖環境では、単語と音声の精度80%と90%が達成されている。
また,英語と日本語の音声コーパスを付加した多言語ASR訓練により,話者開きテストの精度が向上することが判明した。
関連論文リスト
- AudioPaLM: A Large Language Model That Can Speak and Listen [79.44757696533709]
本稿では,音声理解・生成のための大規模言語モデルであるAudioPaLMを紹介する。
AudioPaLMはテキストベースの言語モデルと音声ベースの言語モデルを融合する。
音声認識や音声音声翻訳などの応用により、テキストと音声を処理および生成することができる。
論文 参考訳(メタデータ) (2023-06-22T14:37:54Z) - Phonemic Representation and Transcription for Speech to Text
Applications for Under-resourced Indigenous African Languages: The Case of
Kiswahili [0.0]
キスワヒリを含むいくつかのアフリカ先住民の言語が技術的に不足していることが判明した。
本稿では,Kiswahili音声コーパスの転写過程と展開について検討する。
これは、CMU Sphinx 音声認識ツールボックスを使用して作成された ASR モデルのために、更新された Kiswahili 音素辞書を提供する。
論文 参考訳(メタデータ) (2022-10-29T09:04:09Z) - An Automatic Speech Recognition System for Bengali Language based on
Wav2Vec2 and Transfer Learning [0.0]
本稿では,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることを目的とする。
提案手法はベンガル語を効果的にモデル化し,7747サンプルの試験データセット上で,1000サンプルのみを用いた場合,Levenshtein Mean Distance'の3.819スコアを達成した。
論文 参考訳(メタデータ) (2022-09-16T18:20:16Z) - ASR2K: Speech Recognition for Around 2000 Languages without Audio [100.41158814934802]
対象言語に音声を必要としない音声認識パイプラインを提案する。
私たちのパイプラインは、音響、発音、言語モデルという3つのコンポーネントで構成されています。
我々は、1909年の言語をCrubadanと組み合わせて、大きな絶滅危惧言語n-gramデータベースを構築した。
論文 参考訳(メタデータ) (2022-09-06T22:48:29Z) - Aggression in Hindi and English Speech: Acoustic Correlates and
Automatic Identification [0.802904964931021]
この研究は、わずか10時間以上の政治談話のコーパスに基づいている。
我々は、英語とヒンディー語における攻撃を識別する2つの自動分類システムを開発した。
論文 参考訳(メタデータ) (2022-04-06T13:29:25Z) - A study on native American English speech recognition by Indian
listeners with varying word familiarity level [62.14295630922855]
発声を認識している間、各聴取者から3種類の応答が得られます。
これらの転写から単語誤り率(WER)を算出し、認識された文と原文との類似性を評価する指標として用いる。
話者のナティビティの賢明な分析は、一部のナティビティの話者からの発声が、他のいくつかのナティビティに比べてインド人のリスナーによって認識されるのが困難であることを示している。
論文 参考訳(メタデータ) (2021-12-08T07:43:38Z) - Phoneme Recognition through Fine Tuning of Phonetic Representations: a
Case Study on Luhya Language Varieties [77.2347265289855]
音韻アノテーションに基づく多言語認識手法であるAllosaurus を用いた音素認識に焦点を当てた。
挑戦的な実世界シナリオで評価するために,我々は,ケニア西部とウガンダ東部のluhya言語クラスタの2つの種類であるbukusuとsaamiaの音声認識データセットをキュレートした。
私たちは、アロサウルスの微調整がわずか100発話であっても、電話のエラー率を大幅に改善することが分かりました。
論文 参考訳(メタデータ) (2021-04-04T15:07:55Z) - OkwuGb\'e: End-to-End Speech Recognition for Fon and Igbo [0.015863809575305417]
本稿では,Fon の最先端 ASR モデルと Igbo のベンチマーク ASR モデルについて述べる。
本稿では,各言語の包括的言語分析を行い,両言語間のエンドツーエンド,ディープニューラルネットワークに基づく音声認識モデルの作成について述べる。
論文 参考訳(メタデータ) (2021-03-13T18:02:44Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z) - Generative Adversarial Training Data Adaptation for Very Low-resource
Automatic Speech Recognition [31.808145263757105]
我々は、CycleGANベースの非並列音声変換技術を用いて、テスト話者の音声に近いラベル付きトレーニングデータをフォージする。
AinuとMboshiの2つの低リソースコーパスに対する話者適応手法の評価を行った。
論文 参考訳(メタデータ) (2020-05-19T07:35:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。