論文の概要: Subword Segmental Language Modelling for Nguni Languages
- arxiv url: http://arxiv.org/abs/2210.06525v1
- Date: Wed, 12 Oct 2022 18:41:00 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:32:53.506930
- Title: Subword Segmental Language Modelling for Nguni Languages
- Title(参考訳): Nguni言語におけるサブワードセグメンダル言語モデリング
- Authors: Francois Meyer and Jan Buys
- Abstract要約: サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
- 参考スコア(独自算出の注目度): 7.252933737829635
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subwords have become the standard units of text in NLP, enabling efficient
open-vocabulary models. With algorithms like byte-pair encoding (BPE), subword
segmentation is viewed as a preprocessing step applied to the corpus before
training. This can lead to sub-optimal segmentations for low-resource languages
with complex morphologies. We propose a subword segmental language model (SSLM)
that learns how to segment words while being trained for autoregressive
language modelling. By unifying subword segmentation and language modelling,
our model learns subwords that optimise LM performance. We train our model on
the 4 Nguni languages of South Africa. These are low-resource agglutinative
languages, so subword information is critical. As an LM, SSLM outperforms
existing approaches such as BPE-based models on average across the 4 languages.
Furthermore, it outperforms standard subword segmenters on unsupervised
morphological segmentation. We also train our model as a word-level sequence
model, resulting in an unsupervised morphological segmenter that outperforms
existing methods by a large margin for all 4 languages. Our results show that
learning subword segmentation is an effective alternative to existing subword
segmenters, enabling the model to discover morpheme-like subwords that improve
its LM capabilities.
- Abstract(参考訳): サブワードはNLPにおけるテキストの標準単位となり、効率的なオープン語彙モデルを可能にしている。
バイトペア符号化(BPE)のようなアルゴリズムでは、サブワードセグメンテーションはトレーニング前にコーパスに適用される前処理ステップと見なされる。
これは複雑な形態を持つ低リソース言語に対する準最適セグメンテーションにつながる可能性がある。
自己回帰型言語モデルのための訓練を受けながら単語を分割する方法を学ぶサブワードセグメンテーション言語モデル(sslm)を提案する。
サブワードセグメンテーションと言語モデルを統合することで,lm性能を最適化するサブワードを学習する。
私たちは、南アフリカの4つのnguni言語でモデルをトレーニングします。
これらは低リソースの凝集言語なので、サブワード情報は重要である。
LMとしては、SSLMは、4つの言語で平均してBPEベースのモデルのような既存のアプローチよりも優れている。
さらに、教師なし形態素セグメンテーションにおける標準サブワードセグメンタよりも優れています。
また、単語レベルのシーケンスモデルとしてモデルをトレーニングし、教師なし形態素セグメンタが4言語すべてで既存の手法よりも優れています。
その結果,学習サブワードセグメンテーションは既存のサブワードセグメンタの効果的な代替手段であり,lm能力を向上させるモーフェムのようなサブワードをモデルが発見できることがわかった。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Language Models for Text Classification: Is In-Context Learning Enough? [54.869097980761595]
最近の基礎言語モデルでは、ゼロショットや少数ショットの設定で多くのNLPタスクで最先端のパフォーマンスが示されている。
より標準的なアプローチよりもこれらのモデルの利点は、自然言語(prompts)で書かれた命令を理解する能力である。
これにより、アノテーション付きインスタンスが限られているドメインのテキスト分類問題に対処するのに適している。
論文 参考訳(メタデータ) (2024-03-26T12:47:39Z) - TAMS: Translation-Assisted Morphological Segmentation [3.666125285899499]
正準形態素セグメンテーションのためのシーケンス・ツー・シーケンスモデルを提案する。
我々のモデルは、超低リソース設定においてベースラインよりも優れるが、トレーニング分割とより多くのデータとの混合結果が得られる。
高いリソース設定で翻訳を便利にするためには、さらなる作業が必要であるが、我々のモデルは、リソース制約の厳しい設定で、約束を示す。
論文 参考訳(メタデータ) (2024-03-21T21:23:35Z) - Generative Spoken Language Model based on continuous word-sized audio
tokens [52.081868603603844]
本稿では,単語サイズ連続評価音声埋め込みに基づく生成音声言語モデルを提案する。
結果として得られるモデルは、単語サイズの連続埋め込みに基づく最初の生成言語モデルである。
論文 参考訳(メタデータ) (2023-10-08T16:46:14Z) - CompoundPiece: Evaluating and Improving Decompounding Performance of
Language Models [77.45934004406283]
複合語を構成語に分割する作業である「分解」を体系的に研究する。
We introduced a dataset of 255k compound and non-compound words across 56 various languages obtained from Wiktionary。
分割のための専用モデルを訓練するための新しい手法を導入する。
論文 参考訳(メタデータ) (2023-05-23T16:32:27Z) - Subword Segmental Machine Translation: Unifying Segmentation and Target
Sentence Generation [7.252933737829635]
サブワードセグメント機械翻訳(SSMT)は、目標文を生成するために共同学習しながら、ターゲット文をセグメント化することを学ぶ。
6つの翻訳方向にわたる実験により、SSMTは形態学的にリッチな凝集言語に対するchrFスコアを改善することが示された。
論文 参考訳(メタデータ) (2023-05-11T17:44:29Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Breaking Character: Are Subwords Good Enough for MRLs After All? [36.11778282905458]
単語ピースの代わりに文字列よりもBERTスタイルの言語モデルを事前学習する。
我々は,3つの高度に複雑で曖昧なMRLのサブワードをベースとした,TavBERTと呼ばれるモデルと,現代のPLMを比較した。
これらの結果から,TavBERTは表層タスクを軽度に改善するのに対し,サブワードベースのPLMは意味タスクの処理性能が著しく向上することがわかった。
論文 参考訳(メタデータ) (2022-04-10T18:54:43Z) - A Masked Segmental Language Model for Unsupervised Natural Language
Segmentation [12.6839867674222]
Span-Maskingトランスフォーマーアーキテクチャ上に構築されたMasked Segmental Language Model(MSLM)を紹介します。
一連の実験では、私たちのモデルは中国語の繰り返しSLMを一貫して上回ります。
最後に、音素型ライティングシステムのセグメント化におけるさまざまな課題について議論する。
論文 参考訳(メタデータ) (2021-04-16T00:00:05Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。