論文の概要: SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German
- arxiv url: http://arxiv.org/abs/2103.11401v1
- Date: Sun, 21 Mar 2021 14:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 14:41:10.368559
- Title: SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German
- Title(参考訳): swissdial: スイス系ドイツ語の並列多方言コーパス
- Authors: Pelin Dogan-Sch\"onberger, Julian M\"ader, Thomas Hofmann
- Abstract要約: 我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
- 参考スコア(独自算出の注目度): 22.30271453485001
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Swiss German is a dialect continuum whose natively acquired dialects
significantly differ from the formal variety of the language. These dialects
are mostly used for verbal communication and do not have standard orthography.
This has led to a lack of annotated datasets, rendering the use of many NLP
methods infeasible. In this paper, we introduce the first annotated parallel
corpus of spoken Swiss German across 8 major dialects, plus a Standard German
reference. Our goal has been to create and to make available a basic dataset
for employing data-driven NLP applications in Swiss German. We present our data
collection procedure in detail and validate the quality of our corpus by
conducting experiments with the recent neural models for speech synthesis.
- Abstract(参考訳): スイスドイツ語(swiss german)は、方言の形式的変種とは大きく異なる方言である。
これらの方言は、主に言語コミュニケーションに使われ、標準的な正書法を持たない。
これにより、注釈付きデータセットが欠如し、多くのNLPメソッドの使用が不可能になった。
本稿では,8つの主要な方言にまたがるスイス系ドイツ語の注釈付き並列コーパスと標準ドイツ語の参照について紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
音声合成のための最近のニューラルモデルを用いて実験を行い,データ収集の手順を詳細に提示し,コーパスの品質を検証した。
関連論文リスト
- Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - DIALECTBENCH: A NLP Benchmark for Dialects, Varieties, and Closely-Related Languages [49.38663048447942]
DIALECTBENCHは,NLPの品種に対する大規模ベンチマークとして初めて提案される。
これにより、異なる言語でNLPシステムの性能を総合的に評価することができる。
標準言語と非標準言語間の性能格差の相当な証拠を提供する。
論文 参考訳(メタデータ) (2024-03-16T20:18:36Z) - What Do Dialect Speakers Want? A Survey of Attitudes Towards Language Technology for German Dialects [60.8361859783634]
我々はドイツ語に関連する方言と地域言語に関する話者を調査した。
回答者は特に、方言入力で動作する潜在的なNLPツールを好んでいる。
論文 参考訳(メタデータ) (2024-02-19T09:15:28Z) - Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect [52.1701152610258]
モジュラーエンコーダにスイスドイツ語のアダプタを加えると、完全なモノリシックな適応性能の97.5%が達成される。
標準ドイツ語の問合せを与えられたスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的である。
論文 参考訳(メタデータ) (2024-01-25T18:59:32Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography [40.04973667048665]
非標準方言の指標がいかに堅牢かを評価する。
我々は、英語から2つのスイスドイツ語方言への自動機械翻訳のための、人間の翻訳と人間の判断のデータセットを収集する。
論文 参考訳(メタデータ) (2023-11-28T15:12:11Z) - Dialect Transfer for Swiss German Speech Translation [9.373232685350844]
本稿では,スイスドイツ語音声翻訳システムの構築における課題について考察する。
方言の多様性の影響とスイスドイツ語と標準ドイツ語の違いに焦点を当てている。
論文 参考訳(メタデータ) (2023-10-13T13:16:57Z) - SwissBERT: The Multilingual Language Model for Switzerland [52.1701152610258]
SwissBERTは、スイス関連のテキストを処理するために特別に作られたマスク付き言語モデルである。
SwissBERTはトレーニング済みのモデルで、スイスの国語で書かれたニュース記事に適用しました。
スイスバーティ語は言語アダプターを使用しているため、将来の研究でスイスドイツ語の方言に拡張される可能性がある。
論文 参考訳(メタデータ) (2023-03-23T14:44:47Z) - A Swiss German Dictionary: Variation in Speech and Writing [45.82374977939355]
スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
論文 参考訳(メタデータ) (2020-03-31T22:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。