論文の概要: CharBench: Evaluating the Role of Tokenization in Character-Level Tasks
- arxiv url: http://arxiv.org/abs/2508.02591v1
- Date: Mon, 04 Aug 2025 16:46:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.437501
- Title: CharBench: Evaluating the Role of Tokenization in Character-Level Tasks
- Title(参考訳): CharBench: 文字レベルタスクにおけるトークン化の役割を評価する
- Authors: Omri Uzan, Yuval Pinter,
- Abstract要約: CharBenchは、既存の選択肢よりも2桁大きい文字レベルのタスクのベンチマークである。
本稿では,単語の固有性とそのトークンへのセグメンテーションがモデル性能にどのように対応するか分析する。
タスク数をカウントする際、トークン化特性は正確さと弱い相関があるのに対し、クエリされた単語の長さと実際の文字数はより重要な役割を担っている。
- 参考スコア(独自算出の注目度): 3.937454839700144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tasks that require character-level reasoning, such as counting or locating characters within words, remain challenging for contemporary language models. A common conjecture is that language models' reliance on subword units, rather than characters, contributes to their struggles with character-level tasks, yet recent studies offer conflicting conclusions about the role of tokenization, leaving its impact unclear. To address this gap, we introduce CharBench, a comprehensive benchmark of character-level tasks that is two orders of magnitude larger than existing alternatives. We evaluate a diverse range of leading open-weight and proprietary models on CharBench and find that it presents a significant challenge to modern LLMs, with an average accuracy of 43.6% and 32.3% on some tasks. We present an in-depth analysis of how intrinsic properties of words and their segmentations into tokens correspond to model performance. For counting tasks, we find that tokenization properties are weakly correlated with correctness, while the length of the queried word and the actual character count play a more significant part. In contrast, for tasks requiring intra-word positional understanding, performance is negatively correlated with the length of the token containing the queried character, suggesting that longer tokens obscure character position information for LLMs. We encourage future work to build on the benchmark and evaluation methodology introduced here as tools for improving model performance on such tasks.
- Abstract(参考訳): 文字レベルの推論を必要とするタスク、例えば単語内の文字の数え方や位置決めは、現代言語モデルでは難しいままである。
共通して、言語モデルが文字よりもサブワード単位に依存していることは、文字レベルの問題との闘いに寄与しているが、近年の研究はトークン化の役割について矛盾する結論を与え、その影響ははっきりしないままである。
このギャップに対処するため、我々はCharBenchを紹介した。CharBenchは既存の選択肢よりも2桁大きい文字レベルのタスクの包括的なベンチマークである。
我々はCharBench上で様々な主要なオープンウェイトモデルとプロプライエタリモデルを評価し、あるタスクにおいて平均43.6%と32.3%の精度で現代のLLMに重大な課題をもたらすことを発見した。
本稿では,単語の固有性とそのトークンへのセグメンテーションがモデル性能にどのように対応しているかを詳細に分析する。
タスク数をカウントする際、トークン化特性は正確さと弱い相関があるのに対し、クエリされた単語の長さと実際の文字数はより重要な役割を担っている。
対照的に、単語内位置理解を必要とするタスクでは、クエリされた文字を含むトークンの長さと性能は負に相関しており、長めのトークンがLLMの文字位置情報を曖昧にしていることが示唆されている。
我々は、このようなタスクにおけるモデルパフォーマンスを改善するツールとして、ここで導入されたベンチマークと評価手法に基づく今後の開発を奨励します。
関連論文リスト
- TASE: Token Awareness and Structured Evaluation for Multilingual Language Models [8.058965963418785]
TASEは、大規模言語モデルのトークンレベルの情報に対する認識と推論能力を評価するために設計されたベンチマークである。
TASEは、トークン認識と構造理解、中国語、英語、韓国語にまたがる10のタスクを2つの中核カテゴリでカバーしている。
我々は、O3、Claude 4、Gemini 2.5 Pro、DeepSeek-R1を含む30以上の主要な商用およびオープンソースLLMを評価した。
論文 参考訳(メタデータ) (2025-08-07T15:11:17Z) - Broken Tokens? Your Language Model can Secretly Handle Non-Canonical Tokenizations [83.93566096400723]
ランダムにサンプリングされたトークン化が与えられた場合、命令調整されたモデルは元の性能の最大93.4%を維持している。
文字レベルのセグメンテーションは文字列操作とコード理解タスクを最大+14%改善する。
右列桁のグルーピングは、大数の算術を+33%向上させる。
論文 参考訳(メタデータ) (2025-06-23T18:02:26Z) - Tokenization is Sensitive to Language Variation [14.568179478275255]
トケナイザーはテキストを小さな単位に分割し、あまり一般的でない言語形式に対して異なる振る舞いをするかもしれない。
これは2種類のタスクに対して、下流のLLMパフォーマンスに異なる影響を与える可能性がある。
最高のトークン化器は2つのタスクタイプによって異なり、事前トークン化器はパフォーマンスに最も大きな影響を与える。
論文 参考訳(メタデータ) (2025-02-21T09:58:54Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [12.143152327874802]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。
本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-30T22:31:19Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z) - SLUE Phase-2: A Benchmark Suite of Diverse Spoken Language Understanding
Tasks [88.4408774253634]
音声言語理解(SLU)タスクは、音声研究コミュニティで何十年にもわたって研究されてきた。
SLUタスクベンチマークはそれほど多くはなく、既存のベンチマークの多くは、すべての研究者が自由に利用できないデータを使っている。
最近の研究は、いくつかのタスクにそのようなベンチマークを導入し始めている。
論文 参考訳(メタデータ) (2022-12-20T18:39:59Z) - Inducing Character-level Structure in Subword-based Language Models with
Type-level Interchange Intervention Training [36.19870483966741]
サブワードに基づく言語モデルの中で,ロバストで解釈可能な文字表現を学習するための因果介入フレームワークを開発した。
本手法は,各文字を因果モデルにおける型付き変数として扱い,そのような因果構造を学習する。
さらに、意味やシーケンスレベルの文脈に依存して体系的に変化する文字レベルのタスク群も導入する。
論文 参考訳(メタデータ) (2022-12-19T22:37:46Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。