論文の概要: Neural Morphological Tagging for Nguni Languages
- arxiv url: http://arxiv.org/abs/2505.12949v1
- Date: Mon, 19 May 2025 10:41:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.538898
- Title: Neural Morphological Tagging for Nguni Languages
- Title(参考訳): Nguni言語に対するニューラルな形態的タグ付け
- Authors: Cael Marquard, Simbarashe Mawere, Francois Meyer,
- Abstract要約: 形態解析システムは、2つの別々のコンポーネントを持つパイプラインとしてフレーム化でき、セグメンタとタグが続く。
本報告では, ニューラル手法を用いて, 4つの言語に対する形態的タグ付けを行う。
- 参考スコア(独自算出の注目度): 2.812898346527047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Morphological parsing is the task of decomposing words into morphemes, the smallest units of meaning in a language, and labelling their grammatical roles. It is a particularly challenging task for agglutinative languages, such as the Nguni languages of South Africa, which construct words by concatenating multiple morphemes. A morphological parsing system can be framed as a pipeline with two separate components, a segmenter followed by a tagger. This paper investigates the use of neural methods to build morphological taggers for the four Nguni languages. We compare two classes of approaches: training neural sequence labellers (LSTMs and neural CRFs) from scratch and finetuning pretrained language models. We compare performance across these two categories, as well as to a traditional rule-based morphological parser. Neural taggers comfortably outperform the rule-based baseline and models trained from scratch tend to outperform pretrained models. We also compare parsing results across different upstream segmenters and with varying linguistic input features. Our findings confirm the viability of employing neural taggers based on pre-existing morphological segmenters for the Nguni languages.
- Abstract(参考訳): 形態素解析は、単語を形態素に分解する作業であり、言語における意味の最小単位であり、それらの文法的役割をラベル付けする。
南アフリカのググニ語(英語版)のように、複数の形態素を連結して単語を構成するような凝集的な言語にとって、特に難しい課題である。
形態解析システムは、2つの別々のコンポーネントを持つパイプラインとしてフレーム化でき、セグメンタとタグが続く。
本報告では, ニューラル手法を用いて, 4つの言語に対する形態的タグ付けを行う。
我々は、スクラッチからニューラルネットワークラベルラー(LSTMとニューラルCRF)を訓練し、事前訓練された言語モデルを微調整する2つのアプローチのクラスを比較した。
これら2つのカテゴリのパフォーマンスを、従来のルールベースの形態解析器と比較する。
ニューラルタグはルールベースのベースラインを快適に上回り、スクラッチからトレーニングされたモデルは、事前訓練されたモデルを上回る傾向にある。
また,異なる上流セグメンタ間の解析結果と,異なる言語的入力特徴との比較を行った。
以上の結果から,Nguni言語に対する既存の形態的セグメンタをベースとしたニューラルタグの有効性が確認された。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価する。
3つのニューラルアーキテクチャに対して、チョムスキー階層の様々な言語について結果を提供する。
我々の貢献は、将来の研究において、言語認識の主張を理論的に健全に検証するのに役立つだろう。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - A Morphology-Based Investigation of Positional Encodings [46.667985003225496]
形態と語順は密接に結びついており、後者は位置符号化によってトランスフォーマーモデルに組み込まれている。
言語の形態的複雑さと、事前訓練された言語モデルにおける位置エンコーディングの利用との間には相関があるのだろうか?
本研究は,22の言語と5の下流タスクを対象とする,この問題に対処する最初の研究である。
論文 参考訳(メタデータ) (2024-04-06T07:10:47Z) - A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T16:56:08Z) - Same Neurons, Different Languages: Probing Morphosyntax in Multilingual
Pre-trained Models [84.86942006830772]
多言語事前学習モデルは文法に関する言語・ユニバーサルの抽象化を導出できると推測する。
43の言語と14のモルフォシンタクティックなカテゴリーで、最先端のニューロンレベルのプローブを用いて、初めて大規模な実験を行った。
論文 参考訳(メタデータ) (2022-05-04T12:22:31Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z) - Morphological Word Segmentation on Agglutinative Languages for Neural
Machine Translation [8.87546236839959]
ニューラル機械翻訳(NMT)のソース側における形態素単語分割法を提案する。
形態学の知識を取り入れて、単語構造における言語情報や意味情報を保存し、訓練時の語彙サイズを小さくする。
これは、他の自然言語処理(NLP)タスクのために、単語を集約言語に分割する前処理ツールとして利用することができる。
論文 参考訳(メタデータ) (2020-01-02T10:05:02Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。