論文の概要: A Swiss German Dictionary: Variation in Speech and Writing
- arxiv url: http://arxiv.org/abs/2004.00139v1
- Date: Tue, 31 Mar 2020 22:10:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-18 01:08:27.718813
- Title: A Swiss German Dictionary: Variation in Speech and Writing
- Title(参考訳): スイスのドイツ語の辞書:話し方と書き方の変化
- Authors: Larissa Schmidt (1), Lucy Linder (2), Sandra Djambazovska (3),
Alexandros Lazaridis (3), Tanja Samard\v{z}i\'c (1), and Claudiu Musat (3)
((1) University of Zurich: URPP Language and Space, (2) University of
Fribourg, (3) Swisscom AG: Data Analytics & AI (DNA))
- Abstract要約: スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
- 参考スコア(独自算出の注目度): 45.82374977939355
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce a dictionary containing forms of common words in various Swiss
German dialects normalized into High German. As Swiss German is, for now, a
predominantly spoken language, there is a significant variation in the written
forms, even between speakers of the same dialect. To alleviate the uncertainty
associated with this diversity, we complement the pairs of Swiss German - High
German words with the Swiss German phonetic transcriptions (SAMPA). This
dictionary becomes thus the first resource to combine large-scale spontaneous
translation with phonetic transcriptions. Moreover, we control for the regional
distribution and insure the equal representation of the major Swiss dialects.
The coupling of the phonetic and written Swiss German forms is powerful. We
show that they are sufficient to train a Transformer-based phoneme to grapheme
model that generates credible novel Swiss German writings. In addition, we show
that the inverse mapping - from graphemes to phonemes - can be modeled with a
transformer trained with the novel dictionary. This generation of
pronunciations for previously unknown words is key in training extensible
automated speech recognition (ASR) systems, which are key beneficiaries of this
dictionary.
- Abstract(参考訳): スイスの諸方言における共通語の形式を含む辞書を高ドイツ語に正規化する。
スイスドイツ語は、現在、主に話されている言語であるため、同じ方言の話者の間でさえも、文章の形式に大きな変化がある。
この多様性にまつわる不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
さらに,地域分布を制御し,主要なスイス方言の均等表現を保証する。
音韻とスイスドイツ語の結合は強力である。
本稿では,トランスフォーマーに基づく音素からグラテムモデルへの学習に十分であることを示す。
さらに, グラフから音素への逆写像は, 新たな辞書で学習した変換器でモデル化可能であることを示す。
この未知語の発音生成は、この辞書の重要な受益者であるasr(extensible automated speech recognition)システムの訓練において鍵となる。
関連論文リスト
- MaiBaam: A Multi-Dialectal Bavarian Universal Dependency Treebank [56.810282574817414]
We present the first multi-dialect Bavarian treebank (MaiBaam) based with part-of-speech and syntactic dependency information in Universal Dependencies (UD)。
我々は、近縁なバイエルン語とドイツ語のモルフォシンタクティックな相違を強調し、話者の正書法の豊富な多様性を示す。
私たちのコーパスには15kのトークンが含まれており、3つの国にまたがるバイエルン語を話すすべての地域の方言をカバーしています。
論文 参考訳(メタデータ) (2024-03-15T13:33:10Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect [52.1701152610258]
モジュラーエンコーダにスイスドイツ語のアダプタを加えると、完全なモノリシックな適応性能の97.5%が達成される。
標準ドイツ語の問合せを与えられたスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的である。
論文 参考訳(メタデータ) (2024-01-25T18:59:32Z) - Dialect Transfer for Swiss German Speech Translation [9.373232685350844]
本稿では,スイスドイツ語音声翻訳システムの構築における課題について考察する。
方言の多様性の影響とスイスドイツ語と標準ドイツ語の違いに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-13T13:16:57Z) - SwissBERT: The Multilingual Language Model for Switzerland [52.1701152610258]
SwissBERTは、スイス関連のテキストを処理するために特別に作られたマスク付き言語モデルである。
SwissBERTはトレーニング済みのモデルで、スイスの国語で書かれたニュース記事に適用しました。
スイスバーティ語は言語アダプターを使用しているため、将来の研究でスイスドイツ語の方言に拡張される可能性がある。
論文 参考訳(メタデータ) (2023-03-23T14:44:47Z) - Differentiable Allophone Graphs for Language-Universal Speech
Recognition [77.2981317283029]
言語ユニバーサル音声認識システムを構築するには、言語間で共有可能な音声の音韻単位を生成する必要がある。
本稿では,音素転写と音声-音素マッピングのみから,音素レベルの監視を導出するための一般的な枠組みを提案する。
我々は,各言語に対する可読確率的音声-音素マッピングを用いた普遍的な電話ベース音声認識モデルを構築した。
論文 参考訳(メタデータ) (2021-07-24T15:09:32Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - Multitask Learning for Grapheme-to-Phoneme Conversion of Anglicisms in
German Speech Recognition [1.3381749415517017]
アングリシズム(英: Anglicisms)は、ドイツ語の発音が不規則であることによる、ドイツ語の音声認識における課題である。
本稿では,アングリシズムの音素化を改善するために,マルチタスク・シーケンス・ツー・シーケンス・アプローチを提案する。
マルチタスク学習は,ドイツ語音声認識における借用語の課題の解決に有効であることを示す。
論文 参考訳(メタデータ) (2021-05-26T17:42:13Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。