論文の概要: SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding
- arxiv url: http://arxiv.org/abs/2601.09089v1
- Date: Wed, 14 Jan 2026 02:45:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.22904
- Title: SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding
- Title(参考訳): SubTokenTest: 実世界のサブトークン理解のための実践的なベンチマーク
- Authors: Shuyang Hou, Yi Hu, Muhan Zhang,
- Abstract要約: 実用的なユーティリティ駆動タスクによるサブトークン理解を評価するベンチマークであるSubTokenTestを紹介した。
我々のベンチマークには、4つのドメインにわたる10のタスクが含まれており、複雑な推論からパフォーマンスを分離することでトークン化関連の障害を分離する。
- 参考スコア(独自算出の注目度): 40.45653552579818
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in large language models (LLMs) have significantly enhanced their reasoning capabilities. However, they continue to struggle with basic character-level tasks, such as counting letters in words, a problem rooted in their tokenization process. While existing benchmarks have highlighted this weakness through basic character operations, such failures are often dismissed due to lacking practical relevance. Yet, many real-world applications, such as navigating text-based maps or interpreting structured tables, rely heavily on precise sub-token understanding. In this regard, we introduce SubTokenTest, a comprehensive benchmark that assesses sub-token understanding through practical, utility-driven tasks. Our benchmark includes ten tasks across four domains and isolates tokenization-related failures by decoupling performance from complex reasoning. We provide a comprehensive evaluation of nine advanced LLMs. Additionally, we investigate the impact of test-time scaling on sub-token reasoning and explore how character-level information is encoded within the hidden states.
- Abstract(参考訳): 大規模言語モデル(LLM)の最近の進歩は、その推論能力を大幅に向上させた。
しかし、文字を単語に数えたり、トークン化プロセスに根ざした問題など、基本的な文字レベルのタスクに苦戦し続けている。
既存のベンチマークでは、基本的な文字操作によってこの弱点が強調されているが、実際的な関連性が欠如しているため、このような失敗はしばしば無視される。
しかし、テキストベースの地図のナビゲートや構造化テーブルの解釈など、現実世界の多くのアプリケーションは、正確なサブトークン理解に大きく依存している。
本稿では,実用性を重視したタスクを通じて,サブトークン理解を評価するための総合的なベンチマークであるSubTokenTestを紹介する。
我々のベンチマークには、4つのドメインにわたる10のタスクが含まれており、複雑な推論からパフォーマンスを分離することでトークン化関連の障害を分離する。
9種類の高度なLCMを総合的に評価する。
さらに,テストタイムのスケーリングがサブトークン推論に与える影響について検討し,隠れ状態内で文字レベルの情報をエンコードする方法を検討する。
関連論文リスト
- CharBench: Evaluating the Role of Tokenization in Character-Level Tasks [3.937454839700144]
CharBenchは、既存の選択肢よりも2桁大きい文字レベルのタスクのベンチマークである。
本稿では,単語の固有性とそのトークンへのセグメンテーションがモデル性能にどのように対応するか分析する。
タスク数をカウントする際、トークン化特性は正確さと弱い相関があるのに対し、クエリされた単語の長さと実際の文字数はより重要な役割を担っている。
論文 参考訳(メタデータ) (2025-08-04T16:46:15Z) - Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。
自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文 参考訳(メタデータ) (2025-05-13T23:47:12Z) - Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。
彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。
本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文 参考訳(メタデータ) (2025-02-12T07:37:39Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [7.3673614578648285]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。
本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-30T22:31:19Z) - Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。
私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文 参考訳(メタデータ) (2024-01-20T20:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。