論文の概要: Normalization of Different Swedish Dialects Spoken in Finland
- arxiv url: http://arxiv.org/abs/2012.05318v1
- Date: Wed, 9 Dec 2020 20:59:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 02:05:26.400908
- Title: Normalization of Different Swedish Dialects Spoken in Finland
- Title(参考訳): フィンランドにおけるスウェーデン方言の正規化
- Authors: Mika H\"am\"al\"ainen, Niko Partanen, Khalid Alnajjar
- Abstract要約: 本研究は,フィンランド語方言の6つの地域をカバーする方言正規化手法を提案する。
5つの異なるモデルをテストし、最良のモデルは単語誤り率を76.45から28.58に改善した。
- 参考スコア(独自算出の注目度): 0.9023847175654602
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Our study presents a dialect normalization method for different Finland
Swedish dialects covering six regions. We tested 5 different models, and the
best model improved the word error rate from 76.45 to 28.58. Contrary to
results reported in earlier research on Finnish dialects, we found that
training the model with one word at a time gave best results. We believe this
is due to the size of the training data available for the model. Our models are
accessible as a Python package. The study provides important information about
the adaptability of these methods in different contexts, and gives important
baselines for further study.
- Abstract(参考訳): 本研究は,6地域にわたる異なるフィンランド語スウェーデン方言の方言正規化手法を提案する。
5つの異なるモデルをテストし、最良のモデルは単語誤り率を76.45から28.58に改善した。
フィンランドの方言に関する以前の研究で報告された結果とは対照的に、一度に一つの単語でモデルを訓練することは最良の結果となった。
これはモデルで利用可能なトレーニングデータのサイズによるものだと考えています。
私たちのモデルはPythonパッケージとしてアクセスできます。
この研究は、異なる文脈におけるこれらの手法の適応性に関する重要な情報を提供し、さらなる研究のための重要なベースラインを提供する。
関連論文リスト
- A New Method for Cross-Lingual-based Semantic Role Labeling [5.992526851963307]
英語とペルシア語のセマンティック・ロール・ラベリングを訓練するためのディープラーニングアルゴリズムが提案されている。
その結果,Niksirt et al.のモデルと比較すると,有意な改善が認められた。
セマンティックロールラベリングのための言語間メソッドの開発は、約束を守る。
論文 参考訳(メタデータ) (2024-08-28T16:06:12Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Modeling Orthographic Variation in Occitan's Dialects [3.038642416291856]
大規模多言語モデルは、前処理時のスペル正規化の必要性を最小限に抑える。
以上の結果から,複数言語モデルでは,前処理時のスペル正規化の必要性が最小限に抑えられていることが示唆された。
論文 参考訳(メタデータ) (2024-04-30T07:33:51Z) - UniMax: Fairer and more Effective Language Sampling for Large-Scale
Multilingual Pretraining [92.3702056505905]
我々は,尾語への過剰適合を軽減しつつ,より均一なヘッド言語カバレッジを提供する新しいサンプリング手法UniMaxを提案する。
We found that UniMax are outperforming standard temperature-based sample, and the benefit persistent as scale increased。
論文 参考訳(メタデータ) (2023-04-18T17:45:50Z) - Deep learning model for Mongolian Citizens Feedback Analysis using Word
Vector Embeddings [0.0]
本研究では,2つの単語埋め込みを用いたモンゴル語のフィードバック分類について検討した。
2012年から2018年にかけて収集されたCyrillicのフィードバックデータを使用します。
その結果, 単語の埋め込みは, 深層学習に基づく提案モデルを改善することが示唆された。
論文 参考訳(メタデータ) (2023-02-23T14:49:31Z) - Ensemble Transfer Learning for Multilingual Coreference Resolution [60.409789753164944]
非英語で作業する場合に頻繁に発生する問題は、注釈付きトレーニングデータの不足である。
我々は,様々なトランスファー学習技術を組み合わせた,シンプルだが効果的なアンサンブルベースのフレームワークを設計する。
また、ウィキペディアアンカーテキストを利用して、コア参照解決モデルをブートストラップする低コストのTL手法を提案する。
論文 参考訳(メタデータ) (2023-01-22T18:22:55Z) - Never guess what I heard... Rumor Detection in Finnish News: a Dataset
and a Baseline [1.0896567381206714]
本研究は,フィンランド語ニュースの見出しにおいて,うわさ検出に関する新しいデータセットを提示する。
2つのLSTMモデルと2つのBERTモデルを評価し,結果に大きな違いが認められた。
論文 参考訳(メタデータ) (2021-06-07T07:36:36Z) - AmericasNLI: Evaluating Zero-shot Natural Language Understanding of
Pretrained Multilingual Models in Truly Low-resource Languages [75.08199398141744]
我々は、XNLI(Conneau et al)の拡張である AmericasNLI を提示する。
は、アメリカ大陸の10の原住民の言語である。
XLM-Rで実験を行い、複数のゼロショットおよび翻訳ベースのアプローチをテストします。
XLM-Rのゼロショット性能は全10言語で低調であり、平均性能は38.62%である。
論文 参考訳(メタデータ) (2021-04-18T05:32:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Toward Better Storylines with Sentence-Level Language Models [54.91921545103256]
本稿では,文章中の次の文を選択する文レベル言語モデルを提案する。
教師なしストーリークローゼタスクにおける最先端の精度によるアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2020-05-11T16:54:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。