論文の概要: Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens
- arxiv url: http://arxiv.org/abs/2604.26355v2
- Date: Thu, 30 Apr 2026 14:06:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-01 14:06:12.73444
- Title: Shorthand for Thought: Compressing LLM Reasoning via Entropy-Guided Supertokens
- Title(参考訳): エントロピー誘導スーパートークンによるLLM推論の圧縮
- Authors: Zhenyu Zhao, Sander Land, Daniel M. Bikel, Waseem Alshikh,
- Abstract要約: 大規模言語モデルにおける推論は、重要な推論時間計算を引き起こす。
推論トークンは、低エントロピーのテクスト構造トークン(推論過程を足場とするフレーズの再帰)と高エントロピーのテクスト有機トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分かれていることを示す。
頻繁な構造パターンをキャプチャするテクスチャツペルトケンを導出し、教師付き微調整によりモデルに導入するように教える。
- 参考スコア(独自算出の注目度): 4.0704009036918025
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Reasoning in Large Language Models incurs significant inference-time compute, yet the token-level information structure of reasoning traces remains underexplored. We observe that reasoning tokens split into two functional types: low-entropy \textit{structural} tokens (recurring phrases that scaffold the reasoning process) and higher-entropy \textit{organic} tokens (problem-specific content that drives toward a solution). This asymmetry motivates a simple, model-agnostic compression pipeline: apply cross-word BPE merges on a model's own reasoning traces to derive \textit{supertokens} that capture frequent structural patterns, then teach the model to adopt them via supervised fine-tuning. Across three model families and five mathematical reasoning benchmarks, our approach shortens reasoning traces by 8.1\% on average with no statistically significant accuracy loss on any model--benchmark pair. Beyond compression, supertokens act as interpretable reasoning-move annotations (backtracking, verification, strategy shifts), exposing the model's high-level strategy at a glance. Analyzing transitions between structural categories reveals systematic differences between correct and incorrect traces: correct traces show productive recovery (backtracking followed by strategy shifts and verification), while incorrect traces are dominated by confusion cycles (repeated hedging and unresolved contradictions). These diagnostic signals suggest applications in reward shaping and early stopping for RL-based reasoning training.
- Abstract(参考訳): 大規模言語モデルにおける推論は、重要な推論時間計算を引き起こすが、推論トレースのトークンレベルの情報構造は未解明のままである。
推論トークンは、低エントロピー \textit{structureural}トークン(推論過程を足場とするフレーズの再帰)と高エントロピー \textit{organic}トークン(解に向かって進むプロブレム固有のコンテンツ)の2つの機能タイプに分けられる。
この非対称性は、単純なモデルに依存しない圧縮パイプラインを動機付けている: モデル自身の推論トレースにクロスワードのBPEマージを適用して、頻繁な構造パターンをキャプチャする \textit{supertokens} を導出する。
3つのモデルファミリーと5つの数学的推論ベンチマークで、我々のアプローチは、統計的に有意な精度を失うことなく平均8.1\%の推論トレースを短縮する。
圧縮以外にも、スーパートークンは解釈可能な推論モブアノテーション(バックトラック、検証、戦略シフト)として機能し、モデルの高レベルの戦略を一目で明らかにします。
正しいトレースは生産的な回復を示す(バックトラックと戦略シフトと検証)が、間違ったトレースは混乱サイクルによって支配される(繰り返しヘッジと未解決の矛盾)。
これらの診断信号は、RLに基づく推論訓練における報酬形成と早期停止の応用を示唆している。
関連論文リスト
- Seeing Through the Chain: Mitigate Hallucination in Multimodal Reasoning Models via CoT Compression and Contrastive Preference Optimization [78.94590726578014]
マルチモーダル推論モデル (Multimodal reasoning model, MLRM) は幻覚の傾向が強く, 効果的な解はいまだ未発見のままである。
textbfCompression と textbfPreference textbfOptimization を組み合わせたトレーニングベースの緩和フレームワーク C3PO を提案する。
論文 参考訳(メタデータ) (2026-02-03T11:00:55Z) - Structured Reasoning for Large Language Models [59.215789462977206]
本研究では、推論を明示的、評価可能、トレーニング可能なコンポーネントに分解するフレームワークであるStructured Reasoning(SCR)を提案する。
SCRは推論効率と自己検証を大幅に改善する。
既存の推論パラダイムと比較して、出力トークンの長さを最大50%削減する。
論文 参考訳(メタデータ) (2026-01-12T04:04:01Z) - Analyzing Reasoning Consistency in Large Multimodal Models under Cross-Modal Conflicts [74.47786985522762]
テキスト慣性(textual inertia)と呼ばれる重要な障害モードを特定し、矛盾する視覚的証拠を無視しながら、モデルは間違ったテキストに盲目的に固執する傾向がある。
本稿では,多種多様なLMMの推論連鎖に摂動を構造的に注入するLogicGraph摂動プロトコルを提案する。
その結果,10%未満の症例で自己修正が成功し,主に視覚的テキスト誤りの伝播に寄与することが判明した。
論文 参考訳(メタデータ) (2026-01-07T16:39:34Z) - Verifying Chain-of-Thought Reasoning via Its Computational Graph [23.32876195998818]
CoT(Chain-of-Thought)検証手法は、出力(ブラックボックス)またはアクティベーション(グレイボックス)に基づいて正当性を予測する。
回路ベース推論検証(CRV)というホワイトボックス方式を導入する。
モデルの潜在推論回路の実行トレースと見なされる正しいCoTステップの帰属グラフは、間違ったステップのものと異なる構造指紋を持つことを示す。
論文 参考訳(メタデータ) (2025-10-10T12:06:04Z) - Less is More Tokens: Efficient Math Reasoning via Difficulty-Aware Chain-of-Thought Distillation [82.2288581878096]
本稿では,問題複雑性に基づいてモデルに推論深度を動的に調整する難易度推論の枠組みを提案する。
モデルにそのような動的推論経路を与えることができ、アーキテクチャ上の変更を加えることなく実現可能であることを示す。
論文 参考訳(メタデータ) (2025-09-05T16:40:13Z) - On the Bias of Next-Token Predictors Toward Systematically Inefficient Reasoning: A Shortest-Path Case Study [4.798155648915794]
大規模言語モデルにおける推論を改善するための2つの重要な要因について検討する。
我々は、カスタムトークン化器を用いて、質問-トレース-回答三重項に対してデコーダのみの変換器を訓練する。
同じトレーニングの予算で、非効率なトレースで訓練されたモデルは、目に見えないグラフよりも一般化される。
論文 参考訳(メタデータ) (2025-07-07T18:00:06Z) - Beyond Semantics: The Unreasonable Effectiveness of Reasonless Intermediate Tokens [14.78605805191225]
中間トークンのセマンティクスが「思考」や「推論トレース」として人間化され、実際にモデル性能にどのように影響するかを考察する。
解のみのベースラインが大幅に改善されているにもかかわらず、完全に正しいトレースで訓練されたモデルは、正しい解に到達すると、いまだに不正な推論トレースを生成する。
論文 参考訳(メタデータ) (2025-05-19T23:29:23Z) - The First Few Tokens Are All You Need: An Efficient and Effective Unsupervised Prefix Fine-Tuning Method for Reasoning Models [69.798277882245]
大規模言語モデルの推論効率を向上させるために,Unsupervised Prefix Fine-Tuning (UPFT)を導入した。
UPFTはラベル付きデータや徹底的なサンプリングの必要性を取り除く。
実験の結果,UPFTは教師付き手法の性能と一致していることがわかった。
論文 参考訳(メタデータ) (2025-03-04T18:56:03Z) - Path-of-Thoughts: Extracting and Following Paths for Robust Relational Reasoning with Large Language Models [62.12031550252253]
本稿では,関係推論に対処するための新しいフレームワークであるPath-of-Thoughts(PoT)を提案する。
PoTは、問題コンテキスト内の重要なエンティティ、関係、属性を識別するタスクに依存しないグラフを効率的に抽出する。
PoTは、提案された質問に対応するグラフ内の関連する推論連鎖を特定し、潜在的な答えの推論を容易にする。
論文 参考訳(メタデータ) (2024-12-23T20:27:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。