論文の概要: Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect
- arxiv url: http://arxiv.org/abs/2401.14400v1
- Date: Thu, 25 Jan 2024 18:59:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-26 13:32:50.232529
- Title: Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect
- Title(参考訳): スイスドイツ語方言に対する多言語エンコーダのモジュール適応
- Authors: Jannis Vamvas, No\"emi Aepli, Rico Sennrich
- Abstract要約: モジュラーエンコーダにスイスドイツ語のアダプタを加えると、完全なモノリシックな適応性能の97.5%が達成される。
標準ドイツ語の問合せを与えられたスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的である。
- 参考スコア(独自算出の注目度): 52.1701152610258
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Creating neural text encoders for written Swiss German is challenging due to
a dearth of training data combined with dialectal variation. In this paper, we
build on several existing multilingual encoders and adapt them to Swiss German
using continued pre-training. Evaluation on three diverse downstream tasks
shows that simply adding a Swiss German adapter to a modular encoder achieves
97.5% of fully monolithic adaptation performance. We further find that for the
task of retrieving Swiss German sentences given Standard German queries,
adapting a character-level model is more effective than the other adaptation
strategies. We release our code and the models trained for our experiments at
https://github.com/ZurichNLP/swiss-german-text-encoders
- Abstract(参考訳): スイスドイツ語で書かれたテキストエンコーダを作成するのは、トレーニングデータと方言のバリエーションが組み合わさっているため難しい。
本稿では,既存の多言語エンコーダを複数構築し,継続事前学習を用いてスイスドイツ語に適応する。
3つの異なる下流タスクの評価によれば、スイスドイツ語のアダプタをモジュラーエンコーダに追加するだけで97.5%の完全なモノリシック適応性能が得られる。
さらに、標準ドイツ語の問合せによりスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的であることがわかった。
コードとモデルをhttps://github.com/ZurichNLP/swiss-german-text-encodersで公開しています。
関連論文リスト
- Fine-tuning the SwissBERT Encoder Model for Embedding Sentences and Documents [10.819408603463428]
この目的のために特別に微調整したSwissBERTエンコーダモデルを提示する。
スイス40Tには、スイスの4つの国語のための言語アダプタが含まれている。
スイス固有の設定における文書検索とテキスト分類の実験は、SentenceSwissBERTが元のSwissBERTモデルの精度を上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-13T07:20:21Z) - A Benchmark for Evaluating Machine Translation Metrics on Dialects
Without Standard Orthography [40.04973667048665]
非標準方言の指標がいかに堅牢かを評価する。
我々は、英語から2つのスイスドイツ語方言への自動機械翻訳のための、人間の翻訳と人間の判断のデータセットを収集する。
論文 参考訳(メタデータ) (2023-11-28T15:12:11Z) - Dual-Alignment Pre-training for Cross-lingual Sentence Embedding [79.98111074307657]
本稿では,言語間文埋め込みのためのDAP(Dual-alignment pre-training)フレームワークを提案する。
そこで本研究では,一方の文脈化トークン表現を用いて翻訳相手を再構成する,新しい表現翻訳学習(RTL)タスクを提案する。
我々の手法は文の埋め込みを大幅に改善できる。
論文 参考訳(メタデータ) (2023-05-16T03:53:30Z) - SwissBERT: The Multilingual Language Model for Switzerland [52.1701152610258]
SwissBERTは、スイス関連のテキストを処理するために特別に作られたマスク付き言語モデルである。
SwissBERTはトレーニング済みのモデルで、スイスの国語で書かれたニュース記事に適用しました。
スイスバーティ語は言語アダプターを使用しているため、将来の研究でスイスドイツ語の方言に拡張される可能性がある。
論文 参考訳(メタデータ) (2023-03-23T14:44:47Z) - Multilingual Unsupervised Neural Machine Translation with Denoising
Adapters [77.80790405710819]
単言語データのみを持つ言語を翻訳・翻訳する多言語無教師機械翻訳の問題点を考察する。
この問題に対して、モノリンガルデータを活用するための標準的な手順は、計算コストが高くチューニングが難しいバックトランスレーションである。
本稿では,事前学習したmBART-50上に,デノナイジング対象のアダプタ層であるデノナイジングアダプタを使用することを提案する。
論文 参考訳(メタデータ) (2021-10-20T10:18:29Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - Unsupervised Transfer Learning in Multilingual Neural Machine
Translation with Cross-Lingual Word Embeddings [72.69253034282035]
我々は、言語独立多言語文表現を活用し、新しい言語に容易に一般化する。
複数のロマンス言語を含むベースシステムを用いてポルトガル語から盲目的に復号し、ポルトガル語では36.4 BLEU、ロシア語では12.8 BLEUのスコアを得た。
非反復的逆翻訳によるより実用的な適応アプローチを探求し、高品質の翻訳を生産するモデルの能力を活用します。
論文 参考訳(メタデータ) (2021-03-11T14:22:08Z) - A Swiss German Dictionary: Variation in Speech and Writing [45.82374977939355]
スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
論文 参考訳(メタデータ) (2020-03-31T22:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。