論文の概要: Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs
- arxiv url: http://arxiv.org/abs/2512.21933v1
- Date: Fri, 26 Dec 2025 09:16:33 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-29 12:01:54.518951
- Title: Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs
- Title(参考訳): 破れた言葉, 破れた性能: LLMの性能に及ぼすトークン化の影響
- Authors: Sachin Pawar, Manoj Apte, Kshitij Jadhav, Girish Keshav Palshikar, Nitin Ramrakhiyani,
- Abstract要約: トークン化は,大規模言語モデル(LLM)をトレーニングする最初のステップである
本稿では,特定の LLM に対して与えられたテキストに対するトークン化ペナルティを計算し,トークン化がいかに「悪い」かを示すペナルティ関数セットを提案する。
- 参考スコア(独自算出の注目度): 2.2574632480801484
- License:
- Abstract: Tokenization is the first step in training any Large Language Model (LLM), where the text is split into a sequence of tokens as per the model's fixed vocabulary. This tokenization in LLMs is different from the traditional tokenization in NLP where the text is split into a sequence of "natural" words. In LLMs, a natural word may also be broken into multiple tokens due to limited vocabulary size of the LLMs (e.g., Mistral's tokenizer splits "martial" into "mart" and "ial"). In this paper, we hypothesize that such breaking of natural words negatively impacts LLM performance on various NLP tasks. To quantify this effect, we propose a set of penalty functions that compute a tokenization penalty for a given text for a specific LLM, indicating how "bad" the tokenization is. We establish statistical significance of our hypothesis on multiple NLP tasks for a set of different LLMs.
- Abstract(参考訳): トークン化は、任意のLarge Language Model (LLM) をトレーニングする最初のステップであり、そこでは、モデルの固定語彙に従って、テキストをトークンのシーケンスに分割する。
LLMにおけるこのトークン化は、テキストを「自然な」単語のシーケンスに分割するNLPの伝統的なトークン化とは異なる。
LLM では、自然語は LLM の語彙サイズが限られているため、複数のトークンに分割することもできる(例えば、Mistral のトークン化剤は "martial" を "mart" と "ial" に分割する)。
本稿では,このような自然言語の破れが,様々なNLPタスクにおけるLLM性能に悪影響を及ぼすと仮定する。
この効果を定量化するために、特定の LLM に対して与えられたテキストに対してトークン化ペナルティを演算する一連のペナルティ関数を提案し、トークン化がいかに「悪い」かを示す。
異なるLLMの集合に対する複数のNLPタスクに対する仮説の統計的意義を確立する。
関連論文リスト
- Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究
LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。
我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文 参考訳(メタデータ) (2025-02-17T18:59:02Z) - From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語で構成されているが、現代の大言語モデル(LLM)はサブワードを入力として処理する。
サブワード列をコヒーレントな全単語表現に結合する本質的なデトケン化過程にLLMが関与する証拠を提示する。
以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文 参考訳(メタデータ) (2024-10-08T09:53:35Z) - CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。
LLMはどの程度の間、正書法情報を学ぶことができるのか?
LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2024-09-23T18:27:03Z) - Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs [20.1025293763531]
Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。
本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
論文 参考訳(メタデータ) (2024-06-28T17:54:47Z) - IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。
本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。
IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文 参考訳(メタデータ) (2024-03-02T16:05:26Z) - Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。
誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。
本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文 参考訳(メタデータ) (2023-12-19T01:28:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。