Fugu-MT 論文翻訳(概要): Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs

論文の概要: Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs

arxiv url: http://arxiv.org/abs/2512.21933v1
Date: Fri, 26 Dec 2025 09:16:33 GMT
ステータス: 翻訳完了
システム内更新日: 2025-12-29 20:48:42.068442
Title: Broken Words, Broken Performance: Effect of Tokenization on Performance of LLMs
Title（参考訳）: 破れた言葉, 破れた性能: LLMの性能に及ぼすトークン化の影響
Authors: Sachin Pawar, Manoj Apte, Kshitij Jadhav, Girish Keshav Palshikar, Nitin Ramrakhiyani,
Abstract要約: トークン化は,大規模言語モデル(LLM)をトレーニングする最初のステップである本稿では,特定の LLM に対して与えられたテキストに対するトークン化ペナルティを計算し,トークン化がいかに「悪い」かを示すペナルティ関数セットを提案する。
参考スコア（独自算出の注目度）: 2.2574632480801484
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Tokenization is the first step in training any Large Language Model (LLM), where the text is split into a sequence of tokens as per the model's fixed vocabulary. This tokenization in LLMs is different from the traditional tokenization in NLP where the text is split into a sequence of "natural" words. In LLMs, a natural word may also be broken into multiple tokens due to limited vocabulary size of the LLMs (e.g., Mistral's tokenizer splits "martial" into "mart" and "ial"). In this paper, we hypothesize that such breaking of natural words negatively impacts LLM performance on various NLP tasks. To quantify this effect, we propose a set of penalty functions that compute a tokenization penalty for a given text for a specific LLM, indicating how "bad" the tokenization is. We establish statistical significance of our hypothesis on multiple NLP tasks for a set of different LLMs.
Abstract（参考訳）: トークン化は、任意のLarge Language Model (LLM) をトレーニングする最初のステップであり、そこでは、モデルの固定語彙に従って、テキストをトークンのシーケンスに分割する。 LLMにおけるこのトークン化は、テキストを「自然な」単語のシーケンスに分割するNLPの伝統的なトークン化とは異なる。 LLM では、自然語は LLM の語彙サイズが限られているため、複数のトークンに分割することもできる(例えば、Mistral のトークン化剤は "martial" を "mart" と "ial" に分割する)。本稿では,このような自然言語の破れが,様々なNLPタスクにおけるLLM性能に悪影響を及ぼすと仮定する。この効果を定量化するために、特定の LLM に対して与えられたテキストに対してトークン化ペナルティを演算する一連のペナルティ関数を提案し、トークン化がいかに「悪い」かを示す。異なるLLMの集合に対する複数のNLPタスクに対する仮説の統計的意義を確立する。

関連論文リスト

TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar [8.34539885321864]
意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名といった表面的要因によって異なるトークン化が可能であることを示す。 TokDriftは、セマンティック保存リライトルールを適用して、トークン化のみで異なるコード変種を生成するフレームワークです。この結果から,不正なトークン化は信頼性の高いコード理解と生成に隠れた障害であることがわかった。
論文参考訳（メタデータ） (2025-10-16T17:59:45Z)
Sampling from Your Language Model One Byte at a Time [82.71473348639489]
トークン化は、PBP(Prompt Boundary Problem)として知られるモデル世代に歪みをもたらす可能性がある。 BPEトークン化器を用いて任意のオートレ LM を文字レベルまたはバイトレベル LM に変換する推論時間法を提案する。提案手法は, PBPを効率的に解き, 異なるトークン化器で言語モデルの語彙を統一することができる。
論文参考訳（メタデータ） (2025-06-17T02:37:04Z)
TokAlign: Efficient Vocabulary Adaptation via Token Alignment [41.59130966729569]
トークン化は、大規模言語モデル(LLM)がテキストを処理するための基本的なステップである。新しいドメインや言語では、トークン化の非効率性はLLMのトレーニングと生成を遅くする。トークン共起ビューからLLMの語彙を置き換えるために,TokAlignという効率的な手法を提案する。
論文参考訳（メタデータ） (2025-06-04T03:15:57Z)
Segment First or Comprehend First? Explore the Limit of Unsupervised Word Segmentation with Large Language Models [92.92512796044471]
本稿では,Large Language Models (LLMs) を用いた教師なし単語セグメンテーションの限界を探索する新しいフレームワークを提案する。我々は,LLMの「理解」を評価するために,複数の言語にまたがる単語セグメンテーションを行うために,現在主流のLLMを使用している。本研究では,文脈情報に基づく動的$n$-gramモデルの構築を可能にする,LACAと呼ばれる新しい教師なし手法を提案する。
論文参考訳（メタデータ） (2025-05-26T07:48:15Z)
Idiosyncrasies in Large Language Models [54.26923012617675]
大規模言語モデル(LLM)における慣用句の公開と研究 LLM生成テキストへの微調整テキスト埋め込みモデルにより,優れた分類精度が得られることがわかった。我々はLLMを審査員として利用し、各モデルの慣用句の詳細かつオープンな記述を生成する。
論文参考訳（メタデータ） (2025-02-17T18:59:02Z)
From Tokens to Words: On the Inner Lexicon of LLMs [7.148628740938674]
自然言語は単語で構成されているが、現代の大言語モデル(LLM)はサブワードを入力として処理する。サブワード列をコヒーレントな全単語表現に結合する本質的なデトケン化過程にLLMが関与する証拠を提示する。以上の結果から, LLMはトークン化のスコープを超えて, 潜在語彙を保っていることが示唆された。
論文参考訳（メタデータ） (2024-10-08T09:53:35Z)
CUTE: Measuring LLMs' Understanding of Their Tokens [54.70665106141121]
大きな言語モデル(LLM)は、様々なタスクにおいて顕著なパフォーマンスを示す。 LLMはどの程度の間、正書法情報を学ぶことができるのか? LLMの正書法知識をテストするために設計されたタスクの集合を特徴とする新しいベンチマークを提案する。
論文参考訳（メタデータ） (2024-09-23T18:27:03Z)
Token Erasure as a Footprint of Implicit Vocabulary Items in LLMs [20.1025293763531]
Llama-2-7b のトークン化子は、"northeast" という単語をトークン ['_n', 'ort', 'he', 'astern'] に分割する。本研究では,名前付きエンティティとマルチトークン語の最後のトークン表現が,先行および現在のトークンに関する情報が早期の層で急速に忘れられるような,顕著な「消去」効果を示すことを示す。
論文参考訳（メタデータ） (2024-06-28T17:54:47Z)
Implicit Multimodal Alignment: On the Generalization of Frozen LLMs to Multimodal Inputs [63.29737699997859]
大規模言語モデル(LLM)は、マルチモーダルな微調整をせずに、マルチモーダルなタスクにおいて印象的なパフォーマンスを示した。本研究では,画像,ビデオ,音声,テキストの入力に凍結LDMを公開し,内部表現を解析する。
論文参考訳（メタデータ） (2024-05-26T21:31:59Z)
IntactKV: Improving Large Language Model Quantization by Keeping Pivot Tokens Intact [46.32830393597601]
大規模言語モデル(LLM)は自然言語処理に優れるが、集中的な計算を必要とする。本稿では,LLMにおける従来見過ごされていた外れ値について紹介する。 IntactKVを提案することで、完全精度モデルからピボットトークンのKVキャッシュを損失なく生成する。
論文参考訳（メタデータ） (2024-03-02T16:05:26Z)
Tokenization Matters: Navigating Data-Scarce Tokenization for Gender Inclusive Language Technologies [75.85462924188076]
ジェンダー非包括的NLP研究は、ジェンダーバイナリ中心大言語モデル(LLM)の有害な制限を文書化している。誤認識はByte-Pair(BPE)トークン化によって大きく影響されている。本研究では,(1)代名詞の代名詞化パリティ,(2)代名詞間の一貫した代名詞化を強制する手法,および(2)既存のLLM代名詞の知識を活用して新代名詞の習熟度を向上させる手法を提案する。
論文参考訳（メタデータ） (2023-12-19T01:28:46Z)
Transcormer: Transformer for Sentence Scoring with Sliding Language Modeling [95.9542389945259]
文スコアリングは文の可能性を測ることを目的としており、多くの自然言語処理シナリオで広く使われている。文スコアリングのための新しいテキストスライディング言語モデリング(SLM)を備えたトランスフォーマーモデルであるtextitTranscormerを提案する。
論文参考訳（メタデータ） (2022-05-25T18:00:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。