Fugu-MT 論文翻訳(概要): SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding

論文の概要: SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding

arxiv url: http://arxiv.org/abs/2601.09089v1
Date: Wed, 14 Jan 2026 02:45:08 GMT
ステータス: 翻訳完了
システム内更新日: 2026-01-15 18:59:20.22904
Title: SubTokenTest: A Practical Benchmark for Real-World Sub-token Understanding
Title（参考訳）: SubTokenTest: 実世界のサブトークン理解のための実践的なベンチマーク
Authors: Shuyang Hou, Yi Hu, Muhan Zhang,
Abstract要約: 実用的なユーティリティ駆動タスクによるサブトークン理解を評価するベンチマークであるSubTokenTestを紹介した。我々のベンチマークには、4つのドメインにわたる10のタスクが含まれており、複雑な推論からパフォーマンスを分離することでトークン化関連の障害を分離する。
参考スコア（独自算出の注目度）: 40.45653552579818
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advancements in large language models (LLMs) have significantly enhanced their reasoning capabilities. However, they continue to struggle with basic character-level tasks, such as counting letters in words, a problem rooted in their tokenization process. While existing benchmarks have highlighted this weakness through basic character operations, such failures are often dismissed due to lacking practical relevance. Yet, many real-world applications, such as navigating text-based maps or interpreting structured tables, rely heavily on precise sub-token understanding. In this regard, we introduce SubTokenTest, a comprehensive benchmark that assesses sub-token understanding through practical, utility-driven tasks. Our benchmark includes ten tasks across four domains and isolates tokenization-related failures by decoupling performance from complex reasoning. We provide a comprehensive evaluation of nine advanced LLMs. Additionally, we investigate the impact of test-time scaling on sub-token reasoning and explore how character-level information is encoded within the hidden states.
Abstract（参考訳）: 大規模言語モデル(LLM)の最近の進歩は、その推論能力を大幅に向上させた。しかし、文字を単語に数えたり、トークン化プロセスに根ざした問題など、基本的な文字レベルのタスクに苦戦し続けている。既存のベンチマークでは、基本的な文字操作によってこの弱点が強調されているが、実際的な関連性が欠如しているため、このような失敗はしばしば無視される。しかし、テキストベースの地図のナビゲートや構造化テーブルの解釈など、現実世界の多くのアプリケーションは、正確なサブトークン理解に大きく依存している。本稿では,実用性を重視したタスクを通じて,サブトークン理解を評価するための総合的なベンチマークであるSubTokenTestを紹介する。我々のベンチマークには、4つのドメインにわたる10のタスクが含まれており、複雑な推論からパフォーマンスを分離することでトークン化関連の障害を分離する。 9種類の高度なLCMを総合的に評価する。さらに,テストタイムのスケーリングがサブトークン推論に与える影響について検討し,隠れ状態内で文字レベルの情報をエンコードする方法を検討する。

関連論文リスト

FrugalPrompt: Reducing Contextual Overhead in Large Language Models via Token Attribution [3.4666771782038652]
大規模言語モデル(LLM)は、その恒星の性能の大部分を入力コンテキストの拡大に負っているが、そのような冗長性は金銭的コスト、炭素フットプリント、推論時間の遅延を膨らませている。本稿では,LLMのための新しいプロンプト圧縮フレームワークであるFrugalPromptを紹介する。我々は,4つのNLPタスク(感性分析,コモンセンスQA,要約,数学的推論)にまたがるアプローチを評価する。
論文参考訳（メタデータ） (2025-10-18T10:22:13Z)
ELAIPBench: A Benchmark for Expert-Level Artificial Intelligence Paper Understanding [49.67493845115009]
ELAIPBenchは、大規模言語モデルによるAI研究論文の理解を評価するために、ドメインの専門家によってキュレーションされたベンチマークである。難易度は3つあり、浅い検索よりも非自明な推論に重点を置いている。実験の結果、最高の性能のLSMは、人間の性能よりはるかに低い39.95%の精度しか達成できないことがわかった。
論文参考訳（メタデータ） (2025-10-12T11:11:20Z)
CharBench: Evaluating the Role of Tokenization in Character-Level Tasks [3.937454839700144]
CharBenchは、既存の選択肢よりも2桁大きい文字レベルのタスクのベンチマークである。本稿では,単語の固有性とそのトークンへのセグメンテーションがモデル性能にどのように対応するか分析する。タスク数をカウントする際、トークン化特性は正確さと弱い相関があるのに対し、クエリされた単語の長さと実際の文字数はより重要な役割を担っている。
論文参考訳（メタデータ） (2025-08-04T16:46:15Z)
Tests as Prompt: A Test-Driven-Development Benchmark for LLM Code Generation [1.7268889851975326]
私たちは、テスト駆動開発(TDD)タスクにおいて、大規模言語モデル(LLM)を評価するための新しいベンチマークであるWebApp1Kを紹介します。自然言語のプロンプトに依存する従来のアプローチとは異なり、我々のベンチマークでは、LLMがテストケースから直接機能を解釈し実装する能力を強調しています。
論文参考訳（メタデータ） (2025-05-13T23:47:12Z)
Enhancing LLM Character-Level Manipulation via Divide and Conquer [74.55804812450164]
大規模言語モデル(LLM)は、幅広い自然言語処理(NLP)タスクにまたがる強力な一般化機能を示している。彼らは文字レベルの文字列操作において顕著な弱点を示し、文字削除、挿入、置換といった基本的な操作に苦労した。本稿では,トークンレベルの処理と文字レベルの操作のギャップを埋める新しい手法であるDivide and Conquerによる文字レベル操作を提案する。
論文参考訳（メタデータ） (2025-02-12T07:37:39Z)
Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文参考訳（メタデータ） (2025-02-05T15:33:00Z)
TaskEval: Assessing Difficulty of Code Generation Tasks for Large Language Models [7.3673614578648285]
LLM(Large Language Models)はコード生成のようなコード関連のタスクに優れていますが、ベンチマーク評価は困難などのタスク特性を見落とします。本稿では,多種多様なプロンプトと項目応答理論(IRT)を用いてLCMの能力とベンチマークタスク特性を効率的に評価するフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-30T22:31:19Z)
H-STAR: LLM-driven Hybrid SQL-Text Adaptive Reasoning on Tables [56.73919743039263]
本稿では,2段階のプロセスにシンボル的アプローチと意味的アプローチ(テキスト的アプローチ)を統合し,制約に対処する新しいアルゴリズムを提案する。実験の結果,H-STARは3つの質問応答(QA)と事実検証データセットにおいて,最先端の手法を大幅に上回っていることがわかった。
論文参考訳（メタデータ） (2024-06-29T21:24:19Z)
Identifying and Analyzing Performance-Critical Tokens in Large Language Models [52.404072802235234]
我々は大規模な言語モデルがいかに実演からタスクを実行するかを研究する。私たちの仕事は、大規模な言語モデルがデモからタスクを実行するための学習方法に光を当て、さまざまな種類のトークンが大きな言語モデルで果たす役割についての理解を深めます。
論文参考訳（メタデータ） (2024-01-20T20:55:21Z)
ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning [63.77667876176978]
大規模言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクの解釈可能性が改善されている。これらの推論ステップは、モデルの解釈可能性と検証を大幅に改善するが、客観的にそれらの正確性を研究することは困難である。本稿では、従来のテキスト生成評価指標を改善し拡張する、解釈可能な教師なし自動スコアのスイートであるROSを提案する。
論文参考訳（メタデータ） (2022-12-15T15:52:39Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。