論文の概要: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
- arxiv url: http://arxiv.org/abs/2304.11075v1
- Date: Thu, 20 Apr 2023 14:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:04:49.323963
- Title: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
- Title(参考訳): スペイチェ:スイスの方言に最先端のASRモデルを拡張
- Authors: Cl\'ement Sicard, Kajetan Pyszkowski, Victor Gillioz
- Abstract要約: このプロジェクトは、スイスドイツ語方言のASRモデルの研究を促進することを目的としている。
最近発行されたスイスの音声データセット上で、最先端のASRモデルの性能に関する洞察を提供する。
本稿では,予測ラベルと接地真実ラベルとのセマンティックな距離を考慮に入れた新たな損失を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in NLP largely increased the presence of ASR systems in
our daily lives. However, for many low-resource languages, ASR models still
need to be improved due in part to the difficulty of acquiring pertinent data.
This project aims to help advance research in ASR models for Swiss German
dialects, by providing insights about the performance of state-of-the-art ASR
models on recently published Swiss German speech datasets. We propose a novel
loss that takes into account the semantic distance between the predicted and
the ground-truth labels. We outperform current state-of-the-art results by
fine-tuning OpenAI's Whisper model on Swiss-German datasets.
- Abstract(参考訳): 近年のNLPのブレークスルーは, 日常生活におけるASRシステムの存在感を大きく高めた。
しかし、多くの低リソース言語では、関連するデータを取得するのが難しいという理由から、まだasrモデルの改善が必要である。
このプロジェクトは、スイスドイツ語方言のasrモデルの研究を進め、最近公開されたスイスドイツ語音声データセットにおける最先端asrモデルの性能に関する洞察を提供することを目的としている。
本研究では,予測ラベルと接地ラベル間の意味的距離を考慮した新しい損失を提案する。
スイス-ドイツのデータセット上で,OpenAIのWhisperモデルを微調整することで,現状の成果を上回った。
関連論文リスト
- Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。
本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文 参考訳(メタデータ) (2024-09-13T14:35:47Z) - Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。
本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。
我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文 参考訳(メタデータ) (2024-08-26T05:36:35Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Leveraging Cross-Lingual Transfer Learning in Spoken Named Entity Recognition Systems [1.2494184403263342]
パイプラインとエンド・ツー・エンドの両方のアプローチを用いて,オランダ語,英語,ドイツ語間の移動学習手法を適用した。
我々は、カスタム擬似アノテーション付きデータセットにWav2Vec2 XLS-Rモデルを用いて、言語間システムの適応性を評価する。
論文 参考訳(メタデータ) (2023-07-03T19:30:24Z) - Text-to-Speech Pipeline for Swiss German -- A comparison [2.7787719874237986]
異なるテキスト音声(TTS)モデルを用いて,スイスドイツ語音声の合成について検討した。
その結果、VITSモデルはより優れた性能を示し、さらなるテストに利用した。
論文 参考訳(メタデータ) (2023-05-31T11:33:18Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Coarse-To-Fine And Cross-Lingual ASR Transfer [0.0]
翻訳学習は言語間でさえ困難を克服するために提案されている。
チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。
我々は、単語誤り率(WER)と同様に、トレーニング時間におけるかなりのエデュケーションを達成する。
論文 参考訳(メタデータ) (2021-09-02T13:16:12Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。