論文の概要: Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili
- arxiv url: http://arxiv.org/abs/2406.15358v1
- Date: Tue, 26 Mar 2024 17:26:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-01 07:21:03.991507
- Title: Introducing Syllable Tokenization for Low-resource Languages: A Case Study with Swahili
- Title(参考訳): 低リソース言語のためのSyllable Tokenizationの導入: Swahiliを事例として
- Authors: Jesse Atuhurra, Hiroyuki Shindo, Hidetaka Kamigaito, Taro Watanabe,
- Abstract要約: トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成する。
そこで我々は,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
- 参考スコア(独自算出の注目度): 29.252250069388687
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many attempts have been made in multilingual NLP to ensure that pre-trained language models, such as mBERT or GPT2 get better and become applicable to low-resource languages. To achieve multilingualism for pre-trained language models (PLMs), we need techniques to create word embeddings that capture the linguistic characteristics of any language. Tokenization is one such technique because it allows for the words to be split based on characters or subwords, creating word embeddings that best represent the structure of the language. Creating such word embeddings is essential to applying PLMs to other languages where the model was not trained, enabling multilingual NLP. However, most PLMs use generic tokenization methods like BPE, wordpiece, or unigram which may not suit specific languages. We hypothesize that tokenization based on syllables within the input text, which we call syllable tokenization, should facilitate the development of syllable-aware language models. The syllable-aware language models make it possible to apply PLMs to languages that are rich in syllables, for instance, Swahili. Previous works introduced subword tokenization. Our work extends such efforts. Notably, we propose a syllable tokenizer and adopt an experiment-centric approach to validate the proposed tokenizer based on the Swahili language. We conducted text-generation experiments with GPT2 to evaluate the effectiveness of the syllable tokenizer. Our results show that the proposed syllable tokenizer generates syllable embeddings that effectively represent the Swahili language.
- Abstract(参考訳): mBERTやGPT2のような事前訓練された言語モデルがより良くなり、低リソース言語にも適用できるように、多言語NLPで多くの試みがなされている。
事前学習型言語モデル(PLM)の多言語化を実現するためには,任意の言語の言語特性を捉えた単語埋め込みを作成する技術が必要である。
トークン化は、文字やサブワードに基づいて単語を分割することができ、言語の構造を最もよく表す単語埋め込みを生成するためである。
このような単語の埋め込みを作成することは、モデルが訓練されていない他の言語にPLMを適用するのに不可欠であり、多言語NLPを可能にする。
しかしながら、ほとんどのPLMは、特定の言語に合わないかもしれないBPE、ワードピース、ユニグラムのような一般的なトークン化手法を使用している。
入力テキスト内の音節に基づくトークン化は、音節トークン化と呼ばれ、音節対応言語モデルの開発を促進するべきであると仮定する。
音節対応言語モデルは、例えばスワヒリ語のような音節に富んだ言語にPLMを適用することができる。
以前の作業ではサブワードトークン化が導入されていた。
私たちの仕事はそのような努力を延長する。
特に,スワヒリ語に基づく音節トークン化手法を提案し,実験中心の手法を適用した。
GPT2を用いてテキスト生成実験を行い,音節トークン化の有効性について検討した。
提案手法はスワヒリ語を効果的に表現した音節埋め込みを生成する。
関連論文リスト
- Breaking the Script Barrier in Multilingual Pre-Trained Language Models with Transliteration-Based Post-Training Alignment [50.27950279695363]
転送性能は、低リソースのターゲット言語が高リソースのソース言語とは異なるスクリプトで書かれている場合、しばしば妨げられる。
本論文は,この問題に対処するために翻訳を用いた最近の研究に触発されて,翻訳に基づくポストプレトレーニングアライメント(PPA)手法を提案する。
論文 参考訳(メタデータ) (2024-06-28T08:59:24Z) - Tokenization Impacts Multilingual Language Modeling: Assessing
Vocabulary Allocation and Overlap Across Languages [3.716965622352967]
サブワードトークン化器で観測される語彙表現と語彙重複の質を評価するための新しい基準を提案する。
以上の結果から,言語間の語彙の重複は,特定の下流課題に支障を来す可能性があることが示唆された。
論文 参考訳(メタデータ) (2023-05-26T18:06:49Z) - Translate to Disambiguate: Zero-shot Multilingual Word Sense
Disambiguation with Pretrained Language Models [67.19567060894563]
事前訓練された言語モデル(PLM)は、豊富な言語間知識を学習し、多様なタスクでうまく機能するように微調整することができる。
C-WLT(Contextual Word-Level Translation)を用いた言語間単語感覚の捉え方の検討を行った。
モデルのサイズが大きくなるにつれて、PLMはより言語間単語認識の知識をエンコードし、WLT性能を改善するためのコンテキストを良くする。
論文 参考訳(メタデータ) (2023-04-26T19:55:52Z) - Romanization-based Large-scale Adaptation of Multilingual Language
Models [124.57923286144515]
大規模多言語事前学習言語モデル (mPLMs) は,NLPにおける多言語間移動のデファクトステートとなっている。
我々は、mPLMをローマン化および非ロマン化した14の低リソース言語コーパスに適用するためのデータとパラメータ効率の戦略を多数検討し、比較した。
以上の結果から, UROMAN をベースとしたトランスリテラルは,多くの言語で高い性能を達成できることがわかった。
論文 参考訳(メタデータ) (2023-04-18T09:58:34Z) - Revisiting Syllables in Language Modelling and their Application on
Low-Resource Machine Translation [1.2617078020344619]
シラブルは文字よりも短いシーケンスを提供し、モルヒムよりも特定の抽出規則を必要とせず、そのセグメンテーションはコーパスサイズの影響を受けない。
まず,21言語におけるオープン語彙言語モデリングにおける音節の可能性について検討する。
我々は6つの言語に対して規則に基づくシラビフィケーション手法を使用し、残りはシラビフィケーションプロキシとして機能するハイフン化で対処する。
論文 参考訳(メタデータ) (2022-10-05T18:55:52Z) - A Vocabulary-Free Multilingual Neural Tokenizer for End-to-End Task
Learning [8.052271364177988]
サブワードトークン化は、最近のNLPモデルで一般的に使われる入力前処理のステップである。
本稿では,サブワードトークン化からセグメンテーション情報を抽出し,語彙自由なニューラルトークン化手法を提案する。
我々のトークンライザは、多言語(NLI)タスクとコードスイッチング(センチメント分析)タスクのパフォーマンスを一貫して改善します。
論文 参考訳(メタデータ) (2022-04-22T16:50:49Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Revisiting Language Encoding in Learning Multilingual Representations [70.01772581545103]
言語埋め込みを置き換えるクロスリンガル言語投影(Cross-lingual Language Projection, XLP)と呼ばれる新しいアプローチを提案する。
XLPは単語埋め込みを言語固有の意味空間に投影し、投影された埋め込みはTransformerモデルに供給される。
実験により、xlpは広範囲の多言語ベンチマークデータセットのモデル性能を自由かつ著しく向上できることが示された。
論文 参考訳(メタデータ) (2021-02-16T18:47:10Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。