論文の概要: Does Whisper understand Swiss German? An automatic, qualitative, and human evaluation
- arxiv url: http://arxiv.org/abs/2404.19310v1
- Date: Tue, 30 Apr 2024 07:29:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-01 15:14:12.815375
- Title: Does Whisper understand Swiss German? An automatic, qualitative, and human evaluation
- Title(参考訳): ウィスパーはスイスドイツ語を理解しているか? 自動的、質的、人的評価
- Authors: Eyal Liron Dolev, Clemens Fidel Lutz, Noëmi Aepli,
- Abstract要約: Whisperは最先端の自動音声認識(ASR)モデルである。
我々は,スイスドイツ語におけるウィスパーのパフォーマンスを,自動的,定性的,人的評価を用いて評価した。
- 参考スコア(独自算出の注目度): 2.7036595757881323
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Whisper is a state-of-the-art automatic speech recognition (ASR) model (Radford et al., 2022). Although Swiss German dialects are allegedly not part of Whisper's training data, preliminary experiments showed that Whisper can transcribe Swiss German quite well, with the output being a speech translation into Standard German. To gain a better understanding of Whisper's performance on Swiss German, we systematically evaluate it using automatic, qualitative, and human evaluation. We test its performance on three existing test sets: SwissDial (Dogan-Sch\"onberger et al., 2021), STT4SG-350 (Pl\"uss et al., 2023), and Swiss Parliaments Corpus (Pl\"uss et al., 2021). In addition, we create a new test set for this work, based on short mock clinical interviews. For automatic evaluation, we used word error rate (WER) and BLEU. In the qualitative analysis, we discuss Whisper's strengths and weaknesses and anylyze some output examples. For the human evaluation, we conducted a survey with 28 participants who were asked to evaluate Whisper's performance. All of our evaluations suggest that Whisper is a viable ASR system for Swiss German, so long as the Standard German output is desired.
- Abstract(参考訳): Whisperは最先端の自動音声認識(ASR)モデルである(Radford et al , 2022)。
スイスドイツ語の方言はウィスパーの訓練データには含まれていないと言われているが、予備的な実験により、ウィスパーはスイスドイツ語を非常にうまく書き起こすことができ、その出力は標準ドイツ語への音声翻訳であることが示された。
スイスドイツ語におけるウィスパーのパフォーマンスをよりよく理解するために、我々は、自動的、質的、人的評価を用いて体系的に評価した。
既存の3つのテストセット、SwissDial(Dogan-Sch\onberger et al , 2021)、STT4SG-350(Pl\uss et al , 2023)、Swiss Parliaments Corpus(Pl\uss et al , 2021)でパフォーマンスをテストする。
さらに,本研究のための新しいテストセットを,短い模擬臨床面接に基づいて作成する。
自動評価には単語誤り率(WER)とBLEUを用いた。
質的な分析では、ウィスパーの強みと弱みを論じ、いくつかの出力例を論じる。
人的評価のために,Whisperの評価を依頼された28名の被験者を対象に調査を行った。
我々の評価は、Whisperが標準ドイツの出力が望まれる限り、スイスドイツ人にとって実行可能なASRシステムであることを示唆している。
関連論文リスト
- Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect [52.1701152610258]
モジュラーエンコーダにスイスドイツ語のアダプタを加えると、完全なモノリシックな適応性能の97.5%が達成される。
標準ドイツ語の問合せを与えられたスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的である。
論文 参考訳(メタデータ) (2024-01-25T18:59:32Z) - SeamlessM4T: Massively Multilingual & Multimodal Machine Translation [90.71078166159295]
音声から音声への翻訳,音声からテキストへの翻訳,テキストからテキストへの翻訳,最大100言語の自動音声認識をサポートする単一モデルSeamlessM4Tを紹介する。
我々は、音声とテキストの両方に英語を翻訳できる最初の多言語システムを開発した。
FLEURSでは、SeamlessM4Tが複数のターゲット言語への翻訳の新しい標準を設定し、音声からテキストへの直接翻訳において、以前のSOTAよりも20%BLEUの改善を実現している。
論文 参考訳(メタデータ) (2023-08-22T17:44:18Z) - STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions [5.6787416472329495]
本稿では,STT4SG-350(Speech-to-Text for Swiss German)について述べる。
データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。
全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。
論文 参考訳(メタデータ) (2023-05-30T08:49:38Z) - Prompting the Hidden Talent of Web-Scale Speech Models for Zero-Shot
Task Generalization [61.60501633397704]
本稿では,最近提案されたWebスケール音声モデルのWhisperの創発的能力について検討する。
タスク固有のプロンプトを、別の大規模モデルを活用するか、あるいはデフォルトのプロンプトで特別なトークンを操作するだけで設計する。
実験の結果,提案手法は3つのゼロショットタスクで10%から45%向上し,SotAの教師付きモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-05-18T16:32:58Z) - SwissBERT: The Multilingual Language Model for Switzerland [52.1701152610258]
SwissBERTは、スイス関連のテキストを処理するために特別に作られたマスク付き言語モデルである。
SwissBERTはトレーニング済みのモデルで、スイスの国語で書かれたニュース記事に適用しました。
スイスバーティ語は言語アダプターを使用しているため、将来の研究でスイスドイツ語の方言に拡張される可能性がある。
論文 参考訳(メタデータ) (2023-03-23T14:44:47Z) - 2nd Swiss German Speech to Standard German Text Shared Task at SwissText
2022 [3.910747992453137]
目的は、GrisonsスピーチのテストセットでBLEUスコアを最大化することであった。
3チームが参加し、最高成績のBLEUスコアは70.1となった。
論文 参考訳(メタデータ) (2023-01-17T10:31:11Z) - BLASER: A Text-Free Speech-to-Speech Translation Evaluation Metric [66.73705349465207]
エンドツーエンドの音声音声翻訳(S2ST)は、一般的にテキストベースのメトリクスで評価される。
本稿では,ASRシステムへの依存を回避するために,BLASERと呼ばれるエンドツーエンドS2STのテキストフリー評価指標を提案する。
論文 参考訳(メタデータ) (2022-12-16T14:00:26Z) - SDS-200: A Swiss German Speech to Standard German Text Corpus [5.370317759946287]
SDS-200は、標準ドイツ語翻訳によるスイスドイツ語方言のコーパスである。
データはウェブ記録ツールを使って収集され、一般に公開されている。
このデータは、約4000人の異なる話者による200時間のスピーチで構成され、スイス・ドイツ方言の風景の大部分をカバーしている。
論文 参考訳(メタデータ) (2022-05-19T12:16:29Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - The LMU Munich System for the WMT 2020 Unsupervised Machine Translation
Shared Task [125.06737861979299]
本稿では,LMUミュンヘンのWMT 2020における非教師なし共有タスクへの2つの言語方向の提出について述べる。
我々のunsupervised neural machine translation (UNMT) システムは Chronopoulou et al の戦略に従っている。
我々は、最高の性能のシステムを集め、ドイツ語で32.4点、上セルビアで35.2点、ドイツで35.2点に達した。
論文 参考訳(メタデータ) (2020-10-25T19:04:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。