論文の概要: Canonical and Surface Morphological Segmentation for Nguni Languages
- arxiv url: http://arxiv.org/abs/2104.00767v1
- Date: Thu, 1 Apr 2021 21:06:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-06 01:26:41.764084
- Title: Canonical and Surface Morphological Segmentation for Nguni Languages
- Title(参考訳): nguni言語における正準および表面形態素セグメンテーション
- Authors: Tumi Moeng, Sheldon Reay, Aaron Daniels, Jan Buys
- Abstract要約: 本稿では,形態区分の監督モデルと監督モデルについて検討する。
曲面セグメンテーションのための正規分割と条件ランダムフィールド(CRF)のためのシーケンス・トゥ・シークエンスモデルをトレーニングします。
トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。
教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。
- 参考スコア(独自算出の注目度): 6.805575417034369
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Morphological Segmentation involves decomposing words into morphemes, the
smallest meaning-bearing units of language. This is an important NLP task for
morphologically-rich agglutinative languages such as the Southern African Nguni
language group. In this paper, we investigate supervised and unsupervised
models for two variants of morphological segmentation: canonical and surface
segmentation. We train sequence-to-sequence models for canonical segmentation,
where the underlying morphemes may not be equal to the surface form of the
word, and Conditional Random Fields (CRF) for surface segmentation.
Transformers outperform LSTMs with attention on canonical segmentation,
obtaining an average F1 score of 72.5% across 4 languages. Feature-based CRFs
outperform bidirectional LSTM-CRFs to obtain an average of 97.1% F1 on surface
segmentation. In the unsupervised setting, an entropy-based approach using a
character-level LSTM language model fails to outperforms a Morfessor baseline,
while on some of the languages neither approach performs much better than a
random baseline. We hope that the high performance of the supervised
segmentation models will help to facilitate the development of better NLP tools
for Nguni languages.
- Abstract(参考訳): 形態素セグメンテーション(英: Morphological Segmentation)は、単語をモルヒムに分解する。
これは南アフリカングニ語群のような形態学的に豊富な凝集言語にとって重要なNLPタスクである。
本稿では,2種類の形態的セグメンテーション(正準および表面セグメンテーション)の教師付きモデルと教師なしモデルについて検討する。
本研究では, 音節分割のための系列列列列モデルを訓練し, 基礎となる形態素は単語の表面形状と等しくなく, 条件付きランダム場(CRF)は表面セグメント化を行う。
トランスフォーマーは標準セグメンテーションに注目してLSTMを上回り、4つの言語で平均72.5%のF1スコアを得た。
特徴に基づくCRFは双方向LSTM-CRFよりも優れており、表面セグメンテーションにおける平均97.1%のF1が得られる。
教師なしの設定では、文字レベルのlstm言語モデルを用いたエントロピーベースのアプローチは、morfessorのベースラインを上回ることに失敗し、一部の言語では、どちらのアプローチもランダムなベースラインよりもうまく機能しない。
教師付きセグメンテーションモデルの高性能化によって、Nguni言語のためのより良いNLPツールの開発が促進されることを期待する。
関連論文リスト
- Labeled Morphological Segmentation with Semi-Markov Models [127.69031138022534]
いくつかのタスクを統一する形態的処理の代替として,ラベル付き形態的セグメンテーションを提案する。
また、形態素タグセットの新しい階層も導入する。
形態素を明示的にモデル化する識別型形態素分割システムであるモデル名を開発した。
論文 参考訳(メタデータ) (2024-04-13T12:51:53Z) - A Truly Joint Neural Architecture for Segmentation and Parsing [15.866519123942457]
形態的リッチ言語(MRL)の性能は他の言語よりも低い。
空間的に制限された入力トークンのモルフォロジーの複雑さとあいまいさのため、ツリーのノードとして機能する言語単位は事前に分かっていない。
本稿では,入力のすべての形態的あいまいさを保存する格子型表現をアーク分解モデルに提供し,その形態的・構文的解析タスクを一度に解く,結合型ニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2024-02-04T16:56:08Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - The Languini Kitchen: Enabling Language Modelling Research at Different
Scales of Compute [66.84421705029624]
本稿では,アクセル時間で測定された等価計算に基づくモデル比較を可能にする実験的プロトコルを提案する。
私たちは、既存の学術的ベンチマークを上回り、品質、多様性、文書の長さで上回る、大規模で多様で高品質な書籍データセットを前処理します。
この研究は、GPT-2アーキテクチャから派生したフィードフォワードモデルと、10倍のスループットを持つ新しいLSTMの形式でのリカレントモデルという2つのベースラインモデルも提供する。
論文 参考訳(メタデータ) (2023-09-20T10:31:17Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - T3L: Translate-and-Test Transfer Learning for Cross-Lingual Text
Classification [50.675552118811]
言語間テキスト分類は通常、様々な言語で事前訓練された大規模多言語言語モデル(LM)に基づいて構築される。
本稿では,古典的な「翻訳とテスト」パイプラインを再考し,翻訳と分類の段階を適切に分離することを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:33:22Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Exploring Segmentation Approaches for Neural Machine Translation of
Code-Switched Egyptian Arabic-English Text [29.95141309131595]
本研究では,機械翻訳(MT)の性能評価において,異なるセグメンテーション手法の有効性について検討する。
符号化されたアラビア語-英語から英語へのMT実験を行った。
MTに使用するセグメンテーション設定の選択は,データサイズに大きく依存していることが判明した。
論文 参考訳(メタデータ) (2022-10-11T23:20:12Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages [38.5427201289742]
4つの多義語に対する教師付きおよび教師なし形態素分割法について検討した。
機械翻訳の入力としてBPE(Byte-Pair s)に対してモルフォロジーにインスパイアされたセグメンテーション法を比較する。
我々は,Nahuatlを除くすべての言語対に対して,教師なし形態素分割アルゴリズムがBPEを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:27:20Z) - A Masked Segmental Language Model for Unsupervised Natural Language
Segmentation [12.6839867674222]
Span-Maskingトランスフォーマーアーキテクチャ上に構築されたMasked Segmental Language Model(MSLM)を紹介します。
一連の実験では、私たちのモデルは中国語の繰り返しSLMを一貫して上回ります。
最後に、音素型ライティングシステムのセグメント化におけるさまざまな課題について議論する。
論文 参考訳(メタデータ) (2021-04-16T00:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。