論文の概要: SwissBERT: The Multilingual Language Model for Switzerland
- arxiv url: http://arxiv.org/abs/2303.13310v3
- Date: Tue, 16 Jan 2024 16:24:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-18 21:51:09.562548
- Title: SwissBERT: The Multilingual Language Model for Switzerland
- Title(参考訳): swissbert: スイスにおける多言語言語モデル
- Authors: Jannis Vamvas and Johannes Gra\"en and Rico Sennrich
- Abstract要約: SwissBERTは、スイス関連のテキストを処理するために特別に作られたマスク付き言語モデルである。
SwissBERTはトレーニング済みのモデルで、スイスの国語で書かれたニュース記事に適用しました。
スイスバーティ語は言語アダプターを使用しているため、将来の研究でスイスドイツ語の方言に拡張される可能性がある。
- 参考スコア(独自算出の注目度): 52.1701152610258
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present SwissBERT, a masked language model created specifically for
processing Switzerland-related text. SwissBERT is a pre-trained model that we
adapted to news articles written in the national languages of Switzerland --
German, French, Italian, and Romansh. We evaluate SwissBERT on natural language
understanding tasks related to Switzerland and find that it tends to outperform
previous models on these tasks, especially when processing contemporary news
and/or Romansh Grischun. Since SwissBERT uses language adapters, it may be
extended to Swiss German dialects in future work. The model and our open-source
code are publicly released at https://github.com/ZurichNLP/swissbert.
- Abstract(参考訳): スイス関連テキストの処理に特化したマスク付き言語モデルであるSwissBERTを提案する。
SwissBERTは事前訓練されたモデルで、スイス(ドイツ語、フランス語、イタリア語、ロマンシュ語)の国語で書かれたニュース記事に適用しました。
我々はスイスに関連する自然言語理解タスクについてSwissBERTを評価し、特に現代ニュース処理やロマンシュ・グリシュン処理において、これらのタスクにおける過去のモデルを上回る傾向にあることを示した。
SwissBERTは言語アダプターを使用しているため、将来の作業でスイスドイツ語の方言に拡張することができる。
モデルとオープンソースコードはhttps://github.com/ZurichNLP/swissbert.comで公開されています。
関連論文リスト
- Towards Robust Speech Representation Learning for Thousands of Languages [77.2890285555615]
自己教師付き学習(SSL)は、ラベル付きデータの必要性を減らすことで、音声技術をより多くの言語に拡張するのに役立つ。
我々は4057言語にまたがる100万時間以上のデータに基づいて訓練された、ユニバーサル音声のための言語横断言語であるXEUSを提案する。
論文 参考訳(メタデータ) (2024-06-30T21:40:26Z) - Fine-tuning the SwissBERT Encoder Model for Embedding Sentences and Documents [10.819408603463428]
この目的のために特別に微調整したSwissBERTエンコーダモデルを提示する。
スイス40Tには、スイスの4つの国語のための言語アダプタが含まれている。
スイス固有の設定における文書検索とテキスト分類の実験は、SentenceSwissBERTが元のSwissBERTモデルの精度を上回っていることを示している。
論文 参考訳(メタデータ) (2024-05-13T07:20:21Z) - Modular Adaptation of Multilingual Encoders to Written Swiss German
Dialect [52.1701152610258]
モジュラーエンコーダにスイスドイツ語のアダプタを加えると、完全なモノリシックな適応性能の97.5%が達成される。
標準ドイツ語の問合せを与えられたスイスドイツ語の文を検索する作業において、文字レベルのモデルを適用することは、他の適応戦略よりも効果的である。
論文 参考訳(メタデータ) (2024-01-25T18:59:32Z) - ML-SUPERB: Multilingual Speech Universal PERformance Benchmark [73.65853301350042]
音声処理Universal PERformance Benchmark (SUPERB) は、音声処理タスクにおける自己監督学習(SSL)モデルの性能をベンチマークするためのリーダーボードである。
本稿では,言語認識と言語識別の両方を考慮した多言語SUPERBを提案する。
SUPERBベンチマークと同様、音声SSLモデルはFBANKよりも性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-05-18T00:01:27Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - 2nd Swiss German Speech to Standard German Text Shared Task at SwissText
2022 [3.910747992453137]
目的は、GrisonsスピーチのテストセットでBLEUスコアを最大化することであった。
3チームが参加し、最高成績のBLEUスコアは70.1となった。
論文 参考訳(メタデータ) (2023-01-17T10:31:11Z) - Dialectal Speech Recognition and Translation of Swiss German Speech to
Standard German Text: Microsoft's Submission to SwissText 2021 [17.675379299410054]
スイスドイツ語(Swiss German)は、スイスのドイツ語圏で話されるアレマン語の方言。
本稿では,翻訳を組み込んだ辞書を用いたハイブリッド音声認識システムを提案する。
我々の応募は盲目の会話テストセットで46.04% BLEUに達し、第2位の競争相手を12%の差で上回っている。
論文 参考訳(メタデータ) (2021-06-15T13:34:02Z) - SwissDial: Parallel Multidialectal Corpus of Spoken Swiss German [22.30271453485001]
我々は8つの主要な方言にまたがるスイス系ドイツ語の最初の注釈付き並列コーパスと標準ドイツ語の参照を紹介する。
私たちの目標は、スイスドイツ語でデータ駆動nlpアプリケーションを使用するための基本的なデータセットを作成し、利用可能にすることです。
論文 参考訳(メタデータ) (2021-03-21T14:00:09Z) - A Swiss German Dictionary: Variation in Speech and Writing [45.82374977939355]
スイスドイツ語の諸方言における共通語の形態を含む辞書をハイドイツ語に正規化する。
この多様性に関連する不確実性を軽減するため、スイスドイツ語の高ドイツ語語対とスイスドイツ語の音素転写(SAMPA)を補完する。
したがって、この辞書は、大規模自然翻訳と音声の書き起こしを組み合わせた最初のリソースとなる。
論文 参考訳(メタデータ) (2020-03-31T22:10:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。