論文の概要: Thunder-Tok: Minimizing Tokens per Word in Tokenizing Korean Texts for Generative Language Models
- arxiv url: http://arxiv.org/abs/2506.15138v1
- Date: Wed, 18 Jun 2025 04:40:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.551006
- Title: Thunder-Tok: Minimizing Tokens per Word in Tokenizing Korean Texts for Generative Language Models
- Title(参考訳): Thunder-Tok:生成言語モデルのための韓国語テキストのトークン化における単語1語あたりのトークンの最小化
- Authors: Gyeongje Cho, Yeonkyoun So, Chanwoo Park, Sangmin Lee, Sungmok Jung, Jaejin Lee,
- Abstract要約: Thunder-Tokは、モデル性能を損なうことなくトークンの肥大を抑えるために設計された新しい韓国のトークンメーカーである。
本手法では,韓国語の言語構造に整合した規則に基づく事前学習手法を用いる。
- 参考スコア(独自算出の注目度): 7.809247366499832
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: This paper introduces Thunder-Tok, a new Korean tokenizer designed to reduce token fertility without compromising model performance. Our approach uses a rule-based pre-tokenization method that aligns with the linguistic structure of the Korean language. We also create a seed vocabulary containing tokens that resemble linguistic units and employ a branching entropy-based selection algorithm. These techniques increase the average token length, thus lowering fertility while preserving linguistic information. Experimental results indicate that Thunder-Tok reduces fertility by approximately 10% (i.e., reduces the number of tokens by 10%, improving the inference speed by 10%) compared to BPE without compromising performance across various downstream tasks. These findings demonstrate that our linguistically informed approach is effective and practical for designing efficient tokenizers for language models.
- Abstract(参考訳): 本稿では, モデル性能を損なうことなく, トークンの肥大化を抑えるために設計された, 韓国の新しいトークン化剤Thunder-Tokを紹介する。
本手法では,韓国語の言語構造に整合した規則に基づく事前学習手法を用いる。
また、言語単位に似たトークンを含む種子語彙を作成し、分岐エントロピーに基づく選択アルゴリズムを用いる。
これらの手法は平均トークン長を増大させ、言語情報を保持しながら出生率を低下させる。
実験結果から,Thunder-Tokは,各種下流タスクのパフォーマンスを損なうことなく,約10%の出生率(トークン数を10%削減し,推論速度を10%向上させる)をBPEと比較した。
これらの結果から,言語モデルのための効率的なトークン化器の設計には,言語情報によるアプローチが効果的で実践的であることが示唆された。
関連論文リスト
- Comparative analysis of subword tokenization approaches for Indian languages [5.012314384895538]
トークン化(Tokenization)とは、テキストを小さな部分(トークン)に分割することで、機械が処理しやすいようにする行為である。
サブワードトークン化は、単語を小さなサブワード単位に分割することで、このプロセスを強化する。
これは、接頭辞、接尾辞、その他の形態変化など、インドの言語(IL)における単語の複雑な構造を捉えるのに有用である。
本稿では,SentencePiece,Byte Pair,WordPiece Tokenizationなどのサブワードトークン技術がILに与える影響について検討する。
論文 参考訳(メタデータ) (2025-05-22T16:24:37Z) - MorphTok: Morphologically Grounded Tokenization for Indian Languages [23.58043476541051]
トークン化は、特に大規模言語モデル(LLM)の台頭において、NLPにおいて重要なステップである。
サブワードのトークン化に先立って,形態素認識のセグメンテーションを事前学習ステップとして提案する。
また,スクリプト固有の制約を組み込んだ従来のBPEアルゴリズムの拡張であるConstrained BPEを導入する。
論文 参考訳(メタデータ) (2025-04-14T15:44:45Z) - Retrofitting Large Language Models with Dynamic Tokenization [3.608780819053423]
現在の言語モデル(LM)は固定された静的なサブワードトークン化器を使用する。
このデフォルトの選択は一般的に、特に英語以外の言語において、効率と言語能力の低下をもたらす。
入力テキストに基づいてトークン境界を動的に決定する手法として,動的トークン化を用いたLMの再構成を提案する。
論文 参考訳(メタデータ) (2024-11-27T17:51:58Z) - Signs as Tokens: A Retrieval-Enhanced Multilingual Sign Language Generator [55.94334001112357]
テキスト入力から3Dサインアバターを自動回帰的に生成できる多言語手話モデルSigns as Tokens(SOKE)を導入する。
単語レベルの正確な記号を提供するために,外部記号辞書を組み込んだ検索強化SLG手法を提案する。
論文 参考訳(メタデータ) (2024-11-26T18:28:09Z) - MAGNET: Improving the Multilingual Fairness of Language Models with Adaptive Gradient-Based Tokenization [81.83460411131931]
マルチ言語設定では、非ラテン語スクリプトと低リソース言語は通常、言語モデルの実用性、効率、コストの点で不利である。
適応的勾配に基づくサブワードトークン化による過分割を低減するために,多言語適応型勾配ベーストークン化を提案する。
論文 参考訳(メタデータ) (2024-07-11T18:59:21Z) - Task-Adaptive Tokenization: Enhancing Long-Form Text Generation Efficacy
in Mental Health and Beyond [66.07002187192448]
本稿では,下流タスクの特定部分に生成パイプラインを適応させる手法として,タスク適応型トークン化を提案する。
専門用語を構築するための戦略を導入し、語彙統合プロトコルを導入する。
タスク適応型トークン化アプローチでは、最大60%のトークンを使用しながら、生成パフォーマンスが大幅に向上することが分かりました。
論文 参考訳(メタデータ) (2023-10-09T00:20:59Z) - Impact of Tokenization on Language Models: An Analysis for Turkish [2.4660652494309936]
我々は、OSCARコーパスのトルコ分割におけるRoBERTa事前訓練手順を用いて、トークン化器および事前訓練中規模言語モデルを訓練する。
統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。
語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-04-19T12:01:46Z) - SHUOWEN-JIEZI: Linguistically Informed Tokenizers For Chinese Language
Model Pretraining [48.880840711568425]
事前学習された言語モデルの中国語トークン化に対する3つの要因の影響について検討する。
本稿では,発音に基づくトークン化システムであるSHUOWEN (Talk Word) と,グリフに基づくトークン化システムであるJIEZI (Solve Character) の3種類のトークン化手法を提案する。
SHUOWENとJIEZIは、一般的に従来のシングル文字トークンよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2021-06-01T11:20:02Z) - Lattice-BERT: Leveraging Multi-Granularity Representations in Chinese
Pre-trained Language Models [62.41139712595334]
中国語のための新しい事前学習パラダイムであるLattice-BERTを提案する。
文中の文字や単語から格子グラフを構築し、これらすべてのテキスト単位をトランスフォーマーに供給します。
本モデルが12層設定で平均1.5%の増加をもたらすことを示した。
論文 参考訳(メタデータ) (2021-04-15T02:36:49Z) - Leveraging Adversarial Training in Self-Learning for Cross-Lingual Text
Classification [52.69730591919885]
本稿では,ラベル保存型入力摂動の最大損失を最小限に抑える半教師付き対向学習法を提案する。
多様な言語群に対する文書分類と意図分類において,有効性が著しく向上するのを観察する。
論文 参考訳(メタデータ) (2020-07-29T19:38:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。