論文の概要: The Learning Dynamics of Subword Segmentation for Morphologically Diverse Languages
- arxiv url: http://arxiv.org/abs/2511.09197v2
- Date: Wed, 19 Nov 2025 09:30:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-20 13:41:21.062659
- Title: The Learning Dynamics of Subword Segmentation for Morphologically Diverse Languages
- Title(参考訳): 形態素多言語におけるサブワードセグメンテーションの学習ダイナミクス
- Authors: Francois Meyer, Jan Buys,
- Abstract要約: サブワードセグメント言語モデル(SSLM)を拡張して,事前学習と微調整をサポートする。
形態素スペクトルにまたがる学習のダイナミクスを研究するために,3つの類型的多様言語のためのモデルを訓練する。
形態学的に複雑なisi-Xhosaが不安定である4段階のサブワード学習を同定した。
- 参考スコア(独自算出の注目度): 11.09360259927697
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Subword segmentation is typically applied in preprocessing and stays fixed during training. Alternatively, it can be learned during training to optimise the training objective. In this paper we study the learning dynamics of subword segmentation: if a language model can dynamically optimise tokenisation, how do its subwords evolve during pretraining and finetuning? To explore this, we extend the subword segmental language model (SSLM), a framework for learning subwords during training, to support pretraining and finetuning. We train models for three typologically diverse languages to study learning dynamics across the morphological spectrum: Isi-Xhosa is conjunctive (long word forms composed of many morphemes), Setswana is disjunctive (morphemes written as separate words), and English represents a typological middle ground. We analyse subword dynamics from a linguistic perspective, tracking morphology, productivity, and fertility. We identify four stages of subword learning, with the morphologically complex isi-Xhosa exhibiting greater instability. During finetuning, subword boundaries shift to become finer-grained. Lastly, we show that learnable subwords offers a promising approach to improve text generation and cross-lingual transfer for low-resource, morphologically complex languages.
- Abstract(参考訳): サブワードセグメンテーションは通常、前処理で適用され、トレーニング中に固定される。
あるいは、トレーニングの目的を最適化するためにトレーニング中に学習することができる。
本稿では,サブワードセグメンテーションの学習力学について考察する。もし言語モデルが動的にトークン化を最適化できるなら,そのサブワードは事前学習と微調整の間にどのように進化するか?
これを探るため、トレーニング中にサブワードを学習するフレームワークであるサブワードセグメント言語モデル(SSLM)を拡張し、事前学習と微調整をサポートする。
Isi-Xhosa is conjunctive (long word form composed of many morphems), Seswana is disjunctive (disjunctive, written as separate words, and English represent a typological middle ground。
我々は、言語学的観点から、形態学、生産性、出生率を追跡するサブワードのダイナミクスを解析する。
形態学的に複雑なisi-Xhosaが不安定である4段階のサブワード学習を同定した。
微調整の間、サブワード境界はより微細になる。
最後に、学習可能なサブワードは、低リソース、形態素的に複雑な言語に対するテキスト生成と言語間変換を改善するための有望なアプローチを提供することを示す。
関連論文リスト
- False Friends Are Not Foes: Investigating Vocabulary Overlap in Multilingual Language Models [53.01170039144264]
多言語コーパスで訓練されたサブワードトークンライザは、言語間で重複するトークンを自然に生成する。
トークンの重複は言語間転送を促進するのか、それとも言語間の干渉を導入するのか?
相反する語彙を持つモデルでは、重なり合う結果が得られます。
論文 参考訳(メタデータ) (2025-09-23T07:47:54Z) - BabyLM's First Words: Word Segmentation as a Phonological Probing Task [2.335764524038488]
単語分割が音韻探索のタスクとしてどのように使われるかを示す。
本研究では,31言語にまたがる児童指向音声で学習した音素ベース言語モデルから学習した表現について検討する。
論文 参考訳(メタデータ) (2025-04-04T10:42:56Z) - Subword Segmental Language Modelling for Nguni Languages [7.252933737829635]
サブワードセグメント言語モデル(SSLM)は、自動回帰言語モデリングのトレーニング中に単語をセグメントする方法を学ぶ。
南アフリカの4つのググニ語でモデルを訓練します。
この結果から,既存のサブワードセグメンテーションの代替として,学習サブワードセグメンテーションが有効であることが示唆された。
論文 参考訳(メタデータ) (2022-10-12T18:41:00Z) - Modeling Target-Side Morphology in Neural Machine Translation: A
Comparison of Strategies [72.56158036639707]
形態的に豊かな言語は機械翻訳に困難をもたらす。
多数の異なる屈折する単語曲面は、より大きな語彙を必要とする。
いくつかの頻度の低い用語は、通常、トレーニングコーパスには現れない。
言語的合意は、出力文中の屈折語形間の文法的カテゴリを正しく一致させる必要がある。
論文 参考訳(メタデータ) (2022-03-25T10:13:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Grounded Compositional Outputs for Adaptive Language Modeling [59.02706635250856]
言語モデルの語彙$-$典型的にはトレーニング前に選択され、後で永久に固定される$-$は、そのサイズに影響します。
言語モデルのための完全合成出力埋め込み層を提案する。
我々の知る限り、この結果はトレーニング語彙に依存しないサイズを持つ最初の単語レベル言語モデルである。
論文 参考訳(メタデータ) (2020-09-24T07:21:14Z) - Evaluating Transformer-Based Multilingual Text Classification [55.53547556060537]
我々は,NLPツールが構文的・形態学的に異なる言語で不平等に機能すると主張している。
実験研究を支援するために,単語順と形態的類似度指標を算出した。
論文 参考訳(メタデータ) (2020-04-29T03:34:53Z) - Comparison of Turkish Word Representations Trained on Different
Morphological Forms [0.0]
本研究では形態学的に異なる形態のテキストをトルコ語の形態学的に豊かな言語で作成する。
我々は,補題と接尾辞を異なる方法で扱うテキスト上で, word2vec モデルを訓練した。
また、サブワードモデルであるfastTextを訓練し、単語アナロジー、テキスト分類、感情分析、言語モデルタスクへの埋め込みを比較した。
論文 参考訳(メタデータ) (2020-02-13T10:09:31Z) - A Simple Joint Model for Improved Contextual Neural Lemmatization [60.802451210656805]
本稿では,20言語で最先端の成果を得られる,単純結合型ニューラルモデルを提案する。
本論文では,トレーニングと復号化に加えて,本モデルについて述べる。
論文 参考訳(メタデータ) (2019-04-04T02:03:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。