論文の概要: Leveraging Transformer-Based Models for Predicting Inflection Classes of Words in an Endangered Sami Language
- arxiv url: http://arxiv.org/abs/2411.02556v1
- Date: Mon, 04 Nov 2024 19:41:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 15:00:18.449564
- Title: Leveraging Transformer-Based Models for Predicting Inflection Classes of Words in an Endangered Sami Language
- Title(参考訳): 絶滅危惧語における単語の屈折クラス予測のためのトランスフォーマーベースモデルの導入
- Authors: Khalid Alnajjar, Mika Hämäläinen, Jack Rueter,
- Abstract要約: 本論文では,Skolt Samiの語彙的特徴と形態的特徴を分類するために,トランスフォーマーモデルを用いた学習手法を提案する。
この研究の背後にある動機は、スコルト・サーミのような少数言語のための言語保存と再生活動を支援することである。
本モデルでは,POS分類では平均重み付きF1スコアが1.00であり,屈折分類では0.81である。
- 参考スコア(独自算出の注目度): 1.788784870849724
- License:
- Abstract: This paper presents a methodology for training a transformer-based model to classify lexical and morphosyntactic features of Skolt Sami, an endangered Uralic language characterized by complex morphology. The goal of our approach is to create an effective system for understanding and analyzing Skolt Sami, given the limited data availability and linguistic intricacies inherent to the language. Our end-to-end pipeline includes data extraction, augmentation, and training a transformer-based model capable of predicting inflection classes. The motivation behind this work is to support language preservation and revitalization efforts for minority languages like Skolt Sami. Accurate classification not only helps improve the state of Finite-State Transducers (FSTs) by providing greater lexical coverage but also contributes to systematic linguistic documentation for researchers working with newly discovered words from literature and native speakers. Our model achieves an average weighted F1 score of 1.00 for POS classification and 0.81 for inflection class classification. The trained model and code will be released publicly to facilitate future research in endangered NLP.
- Abstract(参考訳): 本稿では,複雑な形態を特徴とする絶滅危惧言語であるSkolt Samiの語彙的・形態論的特徴を分類するトランスフォーマーモデルの構築手法を提案する。
本稿の目的は,Skolt Samiを言語固有の限られたデータ可用性と言語的複雑さから理解し,分析するための効果的なシステムを構築することである。
我々のエンドツーエンドパイプラインには、データ抽出、拡張、およびインフレクションクラスの予測が可能なトランスフォーマーベースのモデルのトレーニングが含まれています。
この研究の背後にある動機は、スコルト・サーミのような少数言語のための言語保存と再生活動を支援することである。
正確な分類は、より語彙的なカバレッジを提供することで有限状態トランスデューサ(FST)の状態を改善するだけでなく、文学や母語話者から新たに発見された単語を扱う研究者のための体系的な言語文書にも貢献する。
本モデルでは,POS分類では平均重み付きF1スコアが1.00であり,屈折分類では0.81である。
トレーニングされたモデルとコードは公開され、危険にさらされたNLPにおける将来の研究を促進する。
関連論文リスト
- Formality Style Transfer in Persian [1.03590082373586]
本稿では,Fa-BERTアーキテクチャに基づく新しいモデルFa-BERT2BERTを紹介し,一貫性学習と勾配に基づく動的重み付けを取り入れた。
その結果, BLEU, BERTスコア, Rouge-lなど, さまざまな指標において, 従来の手法よりも優れた性能を示し, ペルシャ語スタイル転送の複雑さを十分にナビゲートできることを示す指標が提案された。
論文 参考訳(メタデータ) (2024-06-02T20:57:27Z) - Natural Language Processing for Dialects of a Language: A Survey [56.93337350526933]
最先端自然言語処理(NLP)モデルは、大規模なトレーニングコーパスでトレーニングされ、評価データセットで最上位のパフォーマンスを報告します。
この調査は、これらのデータセットの重要な属性である言語の方言を掘り下げる。
方言データセットに対するNLPモデルの性能劣化と言語技術のエクイティへのその影響を動機として,我々はデータセットやアプローチの観点から,方言に対するNLPの過去の研究を調査した。
論文 参考訳(メタデータ) (2024-01-11T03:04:38Z) - Improving Temporal Generalization of Pre-trained Language Models with
Lexical Semantic Change [28.106524698188675]
近年の研究では、大規模なニューラルネットワークモデルが時間的一般化能力の低下に悩まされていることが明らかになっている。
本稿では,収束した言語モデルを学習後処理するための,単純かつ効果的な語彙レベルのマスキング手法を提案する。
論文 参考訳(メタデータ) (2022-10-31T08:12:41Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Morphologically Aware Word-Level Translation [82.59379608647147]
本稿では,バイリンガルレキシコン誘導のための新しい形態素認識確率モデルを提案する。
我々のモデルは、レキセメが意味の鍵となる語彙単位であるという基本的な言語的直観を生かしている。
論文 参考訳(メタデータ) (2020-11-15T17:54:49Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。