Fugu-MT 論文翻訳(概要): Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

論文の概要: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects

arxiv url: http://arxiv.org/abs/2304.11075v1
Date: Thu, 20 Apr 2023 14:42:54 GMT
ステータス: 翻訳完了
システム内更新日: 2023-04-24 14:04:49.323963
Title: Spaiche: Extending State-of-the-Art ASR Models to Swiss German Dialects
Title（参考訳）: スペイチェ:スイスの方言に最先端のASRモデルを拡張
Authors: Cl\'ement Sicard, Kajetan Pyszkowski, Victor Gillioz
Abstract要約: このプロジェクトは、スイスドイツ語方言のASRモデルの研究を促進することを目的としている。最近発行されたスイスの音声データセット上で、最先端のASRモデルの性能に関する洞察を提供する。本稿では,予測ラベルと接地真実ラベルとのセマンティックな距離を考慮に入れた新たな損失を提案する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent breakthroughs in NLP largely increased the presence of ASR systems in our daily lives. However, for many low-resource languages, ASR models still need to be improved due in part to the difficulty of acquiring pertinent data. This project aims to help advance research in ASR models for Swiss German dialects, by providing insights about the performance of state-of-the-art ASR models on recently published Swiss German speech datasets. We propose a novel loss that takes into account the semantic distance between the predicted and the ground-truth labels. We outperform current state-of-the-art results by fine-tuning OpenAI's Whisper model on Swiss-German datasets.
Abstract（参考訳）: 近年のNLPのブレークスルーは, 日常生活におけるASRシステムの存在感を大きく高めた。しかし、多くの低リソース言語では、関連するデータを取得するのが難しいという理由から、まだasrモデルの改善が必要である。このプロジェクトは、スイスドイツ語方言のasrモデルの研究を進め、最近公開されたスイスドイツ語音声データセットにおける最先端asrモデルの性能に関する洞察を提供することを目的としている。本研究では,予測ラベルと接地ラベル間の意味的距離を考慮した新しい損失を提案する。スイス-ドイツのデータセット上で,OpenAIのWhisperモデルを微調整することで,現状の成果を上回った。

関連論文リスト

Linguistically Informed Tokenization Improves ASR for Underresourced Languages [0.0]
オーストラリア原住民言語Yan-nhangu上でwav2vec2 ASRモデルを微調整する。言語的に情報を得た音声トークン化システムは、WERとCERを大幅に改善する。 ASRモデルの出力を手作業で補正することは、音声をスクラッチから手書きするよりもはるかに高速である。
論文参考訳（メタデータ） (2025-10-07T20:54:35Z)
Out of the Box, into the Clinic? Evaluating State-of-the-Art ASR for Clinical Applications for Older Adults [2.01562032767537]
本研究は,オランダ語話者の言語利用に関する最先端自動音声認識(ASR)モデルの評価である。オランダ語話者を対象とした多言語ASRモデルのベンチマークを行った。以上の結果から,汎用多言語モデルは細調整モデルよりも優れており,近年のASRモデルは実世界のデータセットにうまく一般化できる可能性が示唆された。
論文参考訳（メタデータ） (2025-08-12T07:17:44Z)
Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。 LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文参考訳（メタデータ） (2025-06-11T07:06:27Z)
Whisper-LM: Improving ASR Models with Language Models for Low-Resource Languages [0.43498389175652036]
本研究は、従来の言語モデルと新しい言語モデルと微調整されたWhisperモデルを統合し、あまり一般的でない言語での性能を高める。我々は、特に低リソースシナリオにおいて、単語エラー率を大幅に改善したことを示す。統合はすべてのモデルサイズに確実に貢献するが、改善の程度は様々であり、最適化された言語モデルパラメータの重要性を強調している。
論文参考訳（メタデータ） (2025-03-30T18:03:52Z)
Whispering in Amharic: Fine-tuning Whisper for Low-resource Language [3.2858851789879595]
本研究は,AmharicにおけるOpenAIのWhisper自動音声認識モデルについて検討する。 Mozilla Common Voice、FLEURS、BDU-speechデータセットといったデータセットを使って微調整します。最高のパフォーマンスモデルであるWhispersmall-amは、既存のFLEURSデータと新しい、目に見えないAmharicデータセットの混合を微調整することで、大幅に改善される。
論文参考訳（メタデータ） (2025-03-24T09:39:41Z)
Evaluating Standard and Dialectal Frisian ASR: Multilingual Fine-tuning and Language Identification for Improved Low-resource Performance [9.624005980086707]
最先端の手法では、大量のデータに事前訓練されたモデルをラベル付きデータを使って微調整する自己教師ありトランスファーラーニングをデプロイする。我々は,多言語微調整データと補助言語識別タスクを用いて,Frisian ASRの性能を向上させることができることを示す。
論文参考訳（メタデータ） (2025-02-07T12:42:46Z)
Fine-tuning Whisper on Low-Resource Languages for Real-World Applications [1.5908667698635532]
非文レベルのデータは、長文音声のパフォーマンスを向上する可能性があるが、著作権法により取得が困難であり、しばしば制限される。我々の手法は、よりアクセスしやすい文レベルのデータを、長文音声を扱うモデルの能力を保持するフォーマットに変換することで、このギャップを埋める。我々のモデルは、未調整のWhisperと、これまでの最先端のスイスのドイツのSTTモデルと比較し、そこでは、我々の新しいモデルはより高いBLEUスコアを達成します。
論文参考訳（メタデータ） (2024-12-20T09:49:02Z)
MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文参考訳（メタデータ） (2024-11-27T09:01:08Z)
Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文参考訳（メタデータ） (2024-09-27T03:31:32Z)
Exploring the Impact of Data Quantity on ASR in Extremely Low-resource Languages [24.856817602140193]
この研究は、2つの絶滅危惧言語であるAmisとSediqに焦点を当てている。本稿では,多言語コーパスを利用して対象とする限られた言語データを増やす新しいデータ選択手法を提案する。
論文参考訳（メタデータ） (2024-09-13T14:35:47Z)
Empowering Low-Resource Language ASR via Large-Scale Pseudo Labeling [24.870429379543193]
我々は、Hindiに焦点をあてて、ASRの低リソース言語のための限定ラベル付きデータに挑戦する。本フレームワークは,音声とテキストのペアを評価するための複数のベースモデルと評価器を統合し,低リソース言語に対するロバストな擬似ラベリングを実現する。我々は,複数のコンテンツカテゴリの多様なYouTubeオーディオファイルからなる新しいベンチマークであるIndicYTを用いて,アプローチを検証する。
論文参考訳（メタデータ） (2024-08-26T05:36:35Z)
Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニングハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文参考訳（メタデータ） (2023-11-14T22:32:39Z)
Leveraging Cross-Lingual Transfer Learning in Spoken Named Entity Recognition Systems [1.2494184403263342]
パイプラインとエンド・ツー・エンドの両方のアプローチを用いて,オランダ語,英語,ドイツ語間の移動学習手法を適用した。我々は、カスタム擬似アノテーション付きデータセットにWav2Vec2 XLS-Rモデルを用いて、言語間システムの適応性を評価する。
論文参考訳（メタデータ） (2023-07-03T19:30:24Z)
Text-to-Speech Pipeline for Swiss German -- A comparison [2.7787719874237986]
異なるテキスト音声(TTS)モデルを用いて,スイスドイツ語音声の合成について検討した。その結果、VITSモデルはより優れた性能を示し、さらなるテストに利用した。
論文参考訳（メタデータ） (2023-05-31T11:33:18Z)
End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。 E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文参考訳（メタデータ） (2023-03-03T01:46:41Z)
Coarse-To-Fine And Cross-Lingual ASR Transfer [0.0]
翻訳学習は言語間でさえ困難を克服するために提案されている。チェコ語ASRの英語モデルを再利用して、より少ない関連言語で実験する。我々は、単語誤り率(WER)と同様に、トレーニング時間におけるかなりのエデュケーションを達成する。
論文参考訳（メタデータ） (2021-09-02T13:16:12Z)
The USYD-JD Speech Translation System for IWSLT 2021 [85.64797317290349]
本稿では,シドニー大学とJDが共同でIWSLT 2021低リソース音声翻訳タスクを提出したことを述べる。私たちは、公式に提供されたASRとMTデータセットでモデルをトレーニングしました。翻訳性能の向上を目的として, バック翻訳, 知識蒸留, 多機能再構成, トランスダクティブファインタニングなど, 最新の効果的な手法について検討した。
論文参考訳（メタデータ） (2021-07-24T09:53:34Z)
Arabic Speech Recognition by End-to-End, Modular Systems and Human [56.96327247226586]
我々は、エンドツーエンド変換器ASR、モジュール型HMM-DNN ASR、および人間の音声認識のための包括的なベンチマークを行う。 ASRでは、エンドツーエンドの作業が12.5%、27.5%、23.8%のWERとなり、それぞれMGB2、MGB3、MGB5の新たなパフォーマンスマイルストーンとなった。以上の結果から,アラビア語における人的パフォーマンスは,平均3.6%のWERギャップを持つ機械に比べて,依然としてかなり優れていたことが示唆された。
論文参考訳（メタデータ） (2021-01-21T05:55:29Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。