論文の概要: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
- arxiv url: http://arxiv.org/abs/2304.11075v1
- Date: Thu, 20 Apr 2023 14:42:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 14:04:49.323963
- Title: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
- Title(参考訳): スペイチェ:スイスの方言に最先端のASRモデルを拡張
- Authors: Cl\'ement Sicard, Kajetan Pyszkowski, Victor Gillioz
- Abstract要約: このプロジェクトは、スイスドイツ語方言のASRモデルの研究を促進することを目的としている。
最近発行されたスイスの音声データセット上で、最先端のASRモデルの性能に関する洞察を提供する。
本稿では,予測ラベルと接地真実ラベルとのセマンティックな距離を考慮に入れた新たな損失を提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent breakthroughs in NLP largely increased the presence of ASR systems in
our daily lives. However, for many low-resource languages, ASR models still
need to be improved due in part to the difficulty of acquiring pertinent data.
This project aims to help advance research in ASR models for Swiss German
dialects, by providing insights about the performance of state-of-the-art ASR
models on recently published Swiss German speech datasets. We propose a novel
loss that takes into account the semantic distance between the predicted and
the ground-truth labels. We outperform current state-of-the-art results by
fine-tuning OpenAI's Whisper model on Swiss-German datasets.
- Abstract(参考訳): 近年のNLPのブレークスルーは, 日常生活におけるASRシステムの存在感を大きく高めた。
しかし、多くの低リソース言語では、関連するデータを取得するのが難しいという理由から、まだasrモデルの改善が必要である。
このプロジェクトは、スイスドイツ語方言のasrモデルの研究を進め、最近公開されたスイスドイツ語音声データセットにおける最先端asrモデルの性能に関する洞察を提供することを目的としている。
本研究では,予測ラベルと接地ラベル間の意味的距離を考慮した新しい損失を提案する。
スイス-ドイツのデータセット上で,OpenAIのWhisperモデルを微調整することで,現状の成果を上回った。
関連論文リスト
- ASR advancements for indigenous languages: Quechua, Guarani, Bribri, Kotiria, and Wa'ikhana [0.0]
多様な情報源にまたがる音声コーパスをクロールすることで,各対象言語に対する信頼性の高いASRモデルを提案する。
凍結調整された更新とドロップアウト率は,lrのエポックの総数よりも重要なパラメータであることがわかった。
私たちは最高のモデルを解放します -- ワシカーナとコティリアの2つについて、これまでに報告された他のASRモデルはありません。
論文 参考訳(メタデータ) (2024-04-12T10:12:38Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - Advancing African-Accented Speech Recognition: Epistemic Uncertainty-Driven Data Selection for Generalizable ASR Models [4.737011294851092]
アノテーションプロセスの自動化と,情報的不確実性に基づくデータ選択によるアノテーション関連費用の削減を行う。
我々のアプローチは69.44%のWER改善をもたらし、既存のベースラインよりも平均45%少ないデータを必要とする。
提案手法はアフリカ中心のASRの即時問題に対処し,他の未表現および低リソース言語やアクセントに対するASRシステムの改善に広範な意味を持つことを示す。
論文 参考訳(メタデータ) (2023-06-03T13:11:37Z) - Text-to-Speech Pipeline for Swiss German -- A comparison [2.7787719874237986]
異なるテキスト音声(TTS)モデルを用いて,スイスドイツ語音声の合成について検討した。
その結果、VITSモデルはより優れた性能を示し、さらなるテストに利用した。
論文 参考訳(メタデータ) (2023-05-31T11:33:18Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Coarse-To-Fine And Cross-Lingual ASR Transfer [0.0]
翻訳学習は言語間でさえ困難を克服するために提案されている。
チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。
我々は、単語誤り率(WER)と同様に、トレーニング時間におけるかなりのエデュケーションを達成する。
論文 参考訳(メタデータ) (2021-09-02T13:16:12Z) - The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。
私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。
翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文 参考訳(メタデータ) (2021-07-24T09:53:34Z) - Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。
ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。
以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文 参考訳(メタデータ) (2021-01-21T05:55:29Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。