論文の概要: A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation
- arxiv url: http://arxiv.org/abs/2506.02894v1
- Date: Tue, 03 Jun 2025 14:02:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:35.773561
- Title: A Multi-Dialectal Dataset for German Dialect ASR and Dialect-to-Standard Speech Translation
- Title(参考訳): ドイツ語方言ASRと標準音声翻訳のための多次元データセット
- Authors: Verena Blaschke, Miriam Winkler, Constantin Förster, Gabriele Wenger-Glemser, Barbara Plank,
- Abstract要約: Betthupferlは、ドイツ南東部で話されている3つの方言群における4時間の読み上げ音声を含む評価データセットである。
我々は、方言と標準ドイツ語の両方の転写を提供し、それら間の言語的差異を分析する。
我々は、標準ドイツ語への音声翻訳における多言語ASRモデルのベンチマークを行い、その出力が方言と標準文字にどの程度似ているかの相違を見出した。
- 参考スコア(独自算出の注目度): 19.535404632372042
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Although Germany has a diverse landscape of dialects, they are underrepresented in current automatic speech recognition (ASR) research. To enable studies of how robust models are towards dialectal variation, we present Betthupferl, an evaluation dataset containing four hours of read speech in three dialect groups spoken in Southeast Germany (Franconian, Bavarian, Alemannic), and half an hour of Standard German speech. We provide both dialectal and Standard German transcriptions, and analyze the linguistic differences between them. We benchmark several multilingual state-of-the-art ASR models on speech translation into Standard German, and find differences between how much the output resembles the dialectal vs. standardized transcriptions. Qualitative error analyses of the best ASR model reveal that it sometimes normalizes grammatical differences, but often stays closer to the dialectal constructions.
- Abstract(参考訳): ドイツには様々な方言の風景があるが、現在の自動音声認識(ASR)研究では表現されていない。
本研究では,東ドイツで話される3つの方言群(フランドル語,バイエルン語,アレマン語)における4時間の読み上げ音声を含む評価データセットであるBetthupferlについて検討した。
我々は、方言と標準ドイツ語の両方の転写を提供し、それら間の言語的差異を分析する。
我々は、標準ドイツ語への音声翻訳における多言語ASRモデルのベンチマークを行い、その出力が方言と標準文字にどの程度似ているかの相違を見出した。
最良のASRモデルの定性的誤り解析は、時折文法的な違いを正規化するが、しばしば方言の構造に近づき続けることを示した。
関連論文リスト
- Languages in Multilingual Speech Foundation Models Align Both Phonetically and Semantically [58.019484208091534]
事前訓練された言語モデル(LM)における言語間アライメントは、テキストベースのLMの効率的な転送を可能にしている。
テキストに基づく言語間アライメントの発見と手法が音声に適用されるかどうかについては、未解決のままである。
論文 参考訳(メタデータ) (2025-05-26T07:21:20Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Dialect Transfer for Swiss German Speech Translation [9.373232685350844]
本稿では,スイスドイツ語音声翻訳システムの構築における課題について考察する。
方言の多様性の影響とスイスドイツ語と標準ドイツ語の違いに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-13T13:16:57Z) - STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions [5.6787416472329495]
本稿では,STT4SG-350(Speech-to-Text for Swiss German)について述べる。
データは、話者が標準ドイツ語の文を表示するWebアプリを使って収集され、スイスドイツ語に翻訳され、記録される。
全ての方言地域から343時間のスピーチがあり、現在までスイスドイツ人にとって最大の公的なスピーチコーパスである。
論文 参考訳(メタデータ) (2023-05-30T08:49:38Z) - Textless Speech-to-Speech Translation With Limited Parallel Data [51.3588490789084]
PFBはテキストレスのS2STモデルをトレーニングするためのフレームワークで、数十時間の並列音声データしか必要としない。
3つのドメインで英語、ドイツ語、マラティー語、英語の翻訳をトレーニングし、評価する。
論文 参考訳(メタデータ) (2023-05-24T17:59:05Z) - North S\'{a}mi Dialect Identification with Self-supervised Speech Models [1.1548853370822343]
北サミ語(NS)は4つの主要な方言の変種を包含しているが、その音韻論、形態学、語彙に違いがある。
MFCCや韻律的特徴を含む広範囲な音響的特徴を, 4種類のNS変種の自動検出のために検討した。
その結果, NS方言は状態言語の影響を受け, 4方言は分離可能であり, 高い分類精度が得られた。
論文 参考訳(メタデータ) (2023-05-19T17:53:12Z) - Multi-VALUE: A Framework for Cross-Dialectal English NLP [49.55176102659081]
マルチディレクト (Multi-Dilect) は、50の英語方言にまたがる制御可能なルールベースの翻訳システムである。
ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。
私たちはチカノやインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースしています。
論文 参考訳(メタデータ) (2022-12-15T18:17:01Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Towards One Model to Rule All: Multilingual Strategy for Dialectal
Code-Switching Arabic ASR [11.363966269198064]
自己アテンションに基づくコンストラクタアーキテクチャを用いて,多言語対応の大規模ASRを設計する。
我々はアラビア語(Ar)、英語(En)、フランス語(Fr)を用いてシステムを訓練した。
以上の結果から,最先端のモノリンガル方言アラビア語およびコードスイッチングアラビアASRよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2021-05-31T08:20:38Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。