論文の概要: From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time
- arxiv url: http://arxiv.org/abs/2504.01540v1
- Date: Wed, 02 Apr 2025 09:26:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-03 13:22:38.114575
- Title: From Smør-re-brød to Subwords: Training LLMs on Danish, One Morpheme at a Time
- Title(参考訳): Smør-re-brød から Subwords: Training LLMs on Danish, One Morpheme at a time (英語)
- Authors: Mikkel Wildner Kildeberg, Emil Allerslev Schledermann, Nicolaj Larsen, Rob van der Goot,
- Abstract要約: 我々は、デンマークの注釈付き形態素データセットを利用して、形態素分割のための半教師付きモデルを訓練する。
デンマーク語の単語をテクスチャ的にセグメント化することで,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。
その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
- 参考スコア(独自算出の注目度): 8.28573483085828
- License:
- Abstract: The best performing transformer-based language models use subword tokenization techniques, such as Byte-Pair-Encoding (BPE). However, these approaches often overlook linguistic principles, such as morphological segmentation, which we believe is fundamental for understanding language-specific word structure. In this study, we leverage an annotated Danish morphological dataset to train a semisupervised model for morphological segmentation, enabling the development of tokenizers optimized for Danish morphology. We evaluate four distinct tokenizers, including two custom morphological tokenizers, by analyzing their performance in morphologically segmenting Danish words. Additionally, we train two generative transformer models, \textit{CerebrasGPT-111M} and \textit{LLaMA-3.2 1B}, using these tokenizers and evaluate their downstream performance. Our findings reveal that our custom-developed tokenizers substantially enhance morphological segmentation, achieving an F1 score of 58.84, compared to 39.28 achieved by a Danish BPE tokenizer. In downstream tasks, models trained with our morphological tokenizers outperform those using BPE tokenizers across different evaluation metrics. These results highlight that incorporating Danish morphological segmentation strategies into tokenizers leads to improved performance in generative transformer models on Danish language
- Abstract(参考訳): 最も優れたトランスフォーマーベースの言語モデルは、Byte-Pair-Encoding (BPE)のようなサブワードトークン化技術を使用する。
しかしながら、これらのアプローチは、言語固有の単語構造を理解するのに欠かせない、形態的セグメンテーションのような言語原理をしばしば見落としている。
本研究では,デンマーク形態素データセットを用いて,デンマーク形態素に最適化されたトークン化剤の開発を可能にする。
デンマーク語の単語を形態素的に区分けする手法を用いて,2つのカスタムな形態素トークン化器を含む4つの異なるトークン化器の評価を行った。
さらに、これらのトークン化器を用いて、生成変換モデルである \textit{CerebrasGPT-111M} と \textit{LLaMA-3.21B} をトレーニングし、下流の性能を評価する。
その結果、デンマークのBPEトークン化装置が達成した39.28と比べ、F1スコア58.84を達成し、我々のカスタム開発したトークン化装置はモルフォロジーのセグメンテーションを著しく向上させることが判明した。
下流タスクでは、形態的トークン化器で訓練されたモデルが、異なる評価指標でBPEトークン化器を使用するモデルよりも優れています。
これらの結果は,デンマーク形態素分割戦略をトークン化器に組み込むことで,デンマーク語における生成トランスフォーマーモデルの性能向上につながることを示唆している。
関連論文リスト
- MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Character-level NMT and language similarity [1.90365714903665]
チェコ語とクロアチア語、ドイツ語、ハンガリー語、スロバキア語、スペイン語の翻訳における言語類似度およびトレーニングデータセットのサイズに対する文字レベルのニューラルマシン翻訳の有効性について検討した。
MT自動測定値を用いてモデルの評価を行い、類似言語間の翻訳が文字レベルの入力セグメンテーションの恩恵を受けることを示す。
我々は、すでに訓練済みのサブワードレベルのモデルを文字レベルに微調整することで、ギャップを埋めることが可能である、という以前の知見を確認した。
論文 参考訳(メタデータ) (2023-08-08T17:01:42Z) - SelfSeg: A Self-supervised Sub-word Segmentation Method for Neural
Machine Translation [51.881877192924414]
サブワードセグメンテーションはニューラルマシン翻訳(NMT)に不可欠な前処理ステップである
本稿では,自己教師型ニューラルネットワークサブワードセグメンテーション手法であるSelfSegを紹介する。
SelfSegはトレーニング/デコードがはるかに高速で、並列コーパスの代わりに単言語辞書のみを必要とする。
論文 参考訳(メタデータ) (2023-07-31T04:38:47Z) - MorphPiece : A Linguistic Tokenizer for Large Language Models [3.8073142980733]
基礎となるテキストの形態的セグメンテーションにもとづく言語的に動機付けられたトークン化スキームであるMorphPieceを提案する。
このトークン化器(MorphGPTと呼ばれる)で訓練されたGPTスタイルの因果言語モデルは、様々な教師付きおよび教師なしのNLPタスクにおいて同等または優れたパフォーマンスを示す。
論文 参考訳(メタデータ) (2023-07-14T10:35:04Z) - Effects of sub-word segmentation on performance of transformer language
models [0.628122931748758]
統計的セグメンテーションアルゴリズムBPEと形態素セグメンテーションのための2つの教師なしアルゴリズムを用いて訓練されたGPTモデルとBERTモデルを比較した。
形態的セグメンテーションによるトレーニングでは,1は低いパープレキシティを実現し,2はトレーニング時間でより効率的に収束し,3は下流タスクで同等あるいはより良い評価スコアを得る。
論文 参考訳(メタデータ) (2023-05-09T14:30:29Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - BPE vs. Morphological Segmentation: A Case Study on Machine Translation
of Four Polysynthetic Languages [38.5427201289742]
4つの多義語に対する教師付きおよび教師なし形態素分割法について検討した。
機械翻訳の入力としてBPE(Byte-Pair s)に対してモルフォロジーにインスパイアされたセグメンテーション法を比較する。
我々は,Nahuatlを除くすべての言語対に対して,教師なし形態素分割アルゴリズムがBPEを一貫して上回ることを示す。
論文 参考訳(メタデータ) (2022-03-16T21:27:20Z) - A Massively Multilingual Analysis of Cross-linguality in Shared
Embedding Space [61.18554842370824]
言語間モデルでは、多くの異なる言語に対する表現は同じ空間に存在している。
我々は,bitext検索性能の形式で,言語間アライメントのタスクベース尺度を計算した。
我々はこれらのアライメント指標の潜在的な予測因子として言語的、準言語的、および訓練関連の特徴について検討する。
論文 参考訳(メタデータ) (2021-09-13T21:05:37Z) - Dynamic Programming Encoding for Subword Segmentation in Neural Machine
Translation [80.38621085548013]
本稿では,文をサブワード単位にトークン化するための新しいセグメンテーションアルゴリズムである動的プログラミング(DPE)を提案する。
ターゲットセグメンテーションを見つけるために、正確なログ境界推定と正確なMAP推定を可能にする混合文字サブワード変換器を提案する。
論文 参考訳(メタデータ) (2020-05-03T05:00:50Z) - Byte Pair Encoding is Suboptimal for Language Model Pretraining [49.30780227162387]
一グラムLMトークン化とバイトペア符号化(BPE)の違いを分析する。
その結果,一グラムのLMトークン化手法は,下流タスクと2つの言語でBPEと一致し,BPEより優れることがわかった。
我々は、将来の事前訓練されたLMの開発者が、より一般的なBPEよりもユニグラムのLMメソッドを採用することを期待する。
論文 参考訳(メタデータ) (2020-04-07T21:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。