論文の概要: Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits
- arxiv url: http://arxiv.org/abs/2505.14178v1
- Date: Tue, 20 May 2025 10:32:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:53.067828
- Title: Tokenization Constraints in LLMs: A Study of Symbolic and Arithmetic Reasoning Limits
- Title(参考訳): LLMにおけるトークン化制約--シンボリックおよび算術的推論限界の検討
- Authors: Xiang Zhang, Juntai Cao, Jiaqi Wei, Yiwei Xu, Chenyu You,
- Abstract要約: トークン化は、言語モデルにおける最初の、そしてしばしば過小評価される計算層である。
このような推論の成功は、トークン化された入力の構造によって根本的に境界づけられていることを示す。
- 参考スコア(独自算出の注目度): 15.941209553757274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tokenization is the first - and often underappreciated - layer of computation in language models. While Chain-of-Thought (CoT) prompting enables transformer models to approximate recurrent computation by externalizing intermediate steps, we show that the success of such reasoning is fundamentally bounded by the structure of tokenized inputs. This work presents a theoretical and empirical investigation into how tokenization schemes, particularly subword-based methods like byte-pair encoding (BPE), impede symbolic computation by merging or obscuring atomic reasoning units. We introduce the notion of Token Awareness to formalize how poor token granularity disrupts logical alignment and prevents models from generalizing symbolic procedures. Through systematic evaluation on arithmetic and symbolic tasks, we demonstrate that token structure dramatically affect reasoning performance, causing failure even with CoT, while atomically-aligned formats unlock strong generalization, allowing small models (e.g., GPT-4o-mini) to outperform larger systems (e.g., o1) in structured reasoning. Our findings reveal that symbolic reasoning ability in LLMs is not purely architectural, but deeply conditioned on token-level representations.
- Abstract(参考訳): トークン化は、言語モデルにおける最初の、そしてしばしば過小評価される計算層である。
CoT(Chain-of-Thought)プロンプトにより、中間ステップの外部化によってトランスフォーマーモデルが逐次計算を近似できるが、このような推論の成功はトークン化された入力の構造によって根本的に境界づけられていることを示す。
この研究は、トークン化スキーム、特にバイトペアエンコーディング(BPE)のようなサブワードベースの手法が、原子推論ユニットをマージまたは隠蔽することによってシンボル計算を妨げているかに関する理論的および実証的な研究を示す。
本稿では,トークンの粒度の粗さが論理的アライメントを損なうことを形式化し,モデルが記号的手続きを一般化するのを防ぐために,トークン認識の概念を導入する。
算術的および記号的タスクの体系的評価により、トークン構造が推論性能に劇的に影響し、CoTでも失敗することを示したが、原子的に整列されたフォーマットは強力な一般化を解き、小さなモデル(例: GPT-4o-mini)は構造化された推論においてより大きなシステム(例: o1)より優れることを示した。
その結果, LLMにおける記号的推論能力は, 純粋に構造的ではなく, トークンレベルの表現に深く依存していることが判明した。
関連論文リスト
- Improving Chain-of-Thought Reasoning via Quasi-Symbolic Abstractions [45.950841507164064]
CoT(Chain-of-Though)は、大規模言語モデルにおける推論のための一般的な戦略である。
準シンボリックな説明を通じて,LLMを高レベルの抽象化で動作させる,CoTのバリエーションであるQuaSARを提案する。
実験の結果,準記号的抽象化はCoT法を最大8%精度で改善できることがわかった。
論文 参考訳(メタデータ) (2025-02-18T07:58:48Z) - Efficient Reasoning with Hidden Thinking [48.96945580741641]
CoT(Chain-of-Thought)推論は、複雑な問題解決能力を改善するための強力なフレームワークになっています。
我々は,隠された潜在空間におけるCoTの推論を利用した効率的な推論フレームワークであるtextbfHeima$(隠されたラマとして)を提案する。
ハイマモデルは、ゼロショットタスクの精度を維持しつつ、より高い生成効率を達成する。
論文 参考訳(メタデータ) (2025-01-31T15:10:29Z) - The Foundations of Tokenization: Statistical and Computational Concerns [51.370165245628975]
トークン化は、NLPパイプラインにおける重要なステップである。
NLPにおける標準表現法としての重要性は認識されているが、トークン化の理論的基盤はまだ完全には理解されていない。
本稿では,トークン化モデルの表現と解析のための統一的な形式的枠組みを提案することによって,この理論的ギャップに対処することに貢献している。
論文 参考訳(メタデータ) (2024-07-16T11:12:28Z) - LOGICSEG: Parsing Visual Semantics with Neural Logic Learning and
Reasoning [73.98142349171552]
LOGICSEGは、神経誘導学習と論理推論をリッチデータとシンボリック知識の両方に統合する、全体論的視覚意味論である。
ファジィ論理に基づく連続的な緩和の間、論理式はデータとニューラルな計算グラフに基礎を置いており、論理によるネットワークトレーニングを可能にする。
これらの設計によりLOGICSEGは、既存のセグメンテーションモデルに容易に統合できる汎用的でコンパクトなニューラル論理マシンとなる。
論文 参考訳(メタデータ) (2023-09-24T05:43:19Z) - Evaluating Step-by-Step Reasoning through Symbolic Verification [20.156768135017007]
事前学習言語モデル(LM)は、文脈内学習において顕著な推論性能を示した。
LMLPは、より小さなモデルサイズであっても、長さの一般化ベンチマークにおいて、チェーン・オブ・ソート(CoT)よりも25%以上精度が高い。
論文 参考訳(メタデータ) (2022-12-16T19:30:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。