論文の概要: Token Sugar: Making Source Code Sweeter for LLMs through Token-Efficient Shorthand
- arxiv url: http://arxiv.org/abs/2512.08266v1
- Date: Tue, 09 Dec 2025 05:42:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.825216
- Title: Token Sugar: Making Source Code Sweeter for LLMs through Token-Efficient Shorthand
- Title(参考訳): Token Sugar:Token-EfficientショートハンドによるLLMのソースコードスイーター作成
- Authors: Zhensu Sun, Chengran Yang, Xiaoning Du, Zhou Yang, Li Li, David Lo,
- Abstract要約: Token Sugarは、頻繁で冗長なコードパターンを、ソースコードの可逆的でトークン効率の低いショートハンドに置き換える概念である。
このソリューションでは、799(コードパターン、ショートハンド)ペアを取得し、ソースコードのトークン数を最大15.1%削減できる。
実験の結果、これらのモデルは生成時に重要なトークンセーブ(最大11.2%の削減)を達成するだけでなく、未処理のコードでトレーニングされたベースラインと比較して、ほぼ同一のPass@1スコアを維持することが示されている。
- 参考スコア(独自算出の注目度): 12.853934439806908
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have shown exceptional performance in code generation and understanding tasks, yet their high computational costs hinder broader adoption. One important factor is the inherent verbosity of programming languages, such as unnecessary formatting elements and lengthy boilerplate code. This leads to inflated token counts in both input and generated outputs, which increases inference costs and slows down the generation process. Prior work improves this through simplifying programming language grammar, reducing token usage across both code understanding and generation tasks. However, it is confined to syntactic transformations, leaving significant opportunities for token reduction unrealized at the semantic level. In this work, we propose Token Sugar, a concept that replaces frequent and verbose code patterns with reversible, token-efficient shorthand in the source code. To realize this concept in practice, we designed a systematic solution that mines high-frequency, token-heavy patterns from a code corpus, maps each to a unique shorthand, and integrates them into LLM pretraining via code transformation. With this solution, we obtain 799 (code pattern, shorthand) pairs, which can reduce up to 15.1% token count in the source code and is complementary to existing syntax-focused methods. We further trained three widely used LLMs on Token Sugar-augmented data. Experimental results show that these models not only achieve significant token savings (up to 11.2% reduction) during generation but also maintain near-identical Pass@1 scores compared to baselines trained on unprocessed code.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成と理解タスクにおいて例外的なパフォーマンスを示してきたが、その高い計算コストは広く採用を妨げている。
重要な要素の1つは、不要なフォーマット要素や長い定型コードなど、プログラミング言語固有の冗長性である。
これにより、入力と生成された出力の両方で膨らんだトークンカウントが発生し、推論コストが増加し、生成プロセスが遅くなる。
以前の作業では、プログラミング言語文法を単純化し、コード理解と生成タスクの両方でトークンの使用を減らすことで、この問題を改善している。
しかし、これは統語変換に限られており、意味レベルではトークン還元が実現されない重要な機会を残している。
本研究では,頻度が高く冗長なコードパターンを,ソースコードの可逆的でトークン効率の良い短文に置き換える概念であるToken Sugarを提案する。
この概念を実際に実現するために、私たちは、コードコーパスから高周波でトークンの多いパターンをマイニングし、それぞれをユニークなショートハンドにマップし、それらをコード変換を介してLLMプリトレーニングに統合する、体系的なソリューションを設計しました。
これにより,ソースコード中のトークン数を最大15.1%削減し,既存の構文に着目したメソッドを補完する799ペアが得られる。
さらに,Token Sugar-augmented dataを用いて,広く使用されている3種類のLSMを訓練した。
実験の結果、これらのモデルは生成時に重要なトークンセーブ(最大11.2%の削減)を達成するだけでなく、未処理のコードでトレーニングされたベースラインと比較して、ほぼ同一のPass@1スコアを維持することが示されている。
関連論文リスト
- TokDrift: When LLM Speaks in Subwords but Code Speaks in Grammar [8.34539885321864]
意味的に同一のコードスニペットは、ホワイトスペースや識別子の命名といった表面的要因によって異なるトークン化が可能であることを示す。
TokDriftは、セマンティック保存リライトルールを適用して、トークン化のみで異なるコード変種を生成するフレームワークです。
この結果から,不正なトークン化は信頼性の高いコード理解と生成に隠れた障害であることがわかった。
論文 参考訳(メタデータ) (2025-10-16T17:59:45Z) - On the Effect of Token Merging on Pre-trained Models for Code [11.029842116504726]
本研究では,同じ意味単位に属するサブトークンの隠蔽表現をマージする効果について検討する。
1つは表現を平均化することに基づく戦略であり、もう1つは学習に基づくアプローチを活用する戦略である。
これらの戦略は浮動小数点演算数を1%$から19%$に削減できることを示している。
論文 参考訳(メタデータ) (2025-07-19T00:48:20Z) - StochasTok: Improving Fine-Grained Subword Understanding in LLMs [39.85256850592515]
サブワードレベルの理解は、多桁数字の理解、綴りミス、略語、韻律、言葉遊びなど、多くのタスクに不可欠である。
現在の大きな言語モデル(LLM)は、一見単純なサブワードレベルのタスクに苦しむことが多い。
我々はStochasTokを紹介した。StochasTokは、トレーニング中にトークンをランダムに分割し、LCMが"内部構造を見る"ことを可能にする、シンプルで効率的なトークン化スキームである。
論文 参考訳(メタデータ) (2025-06-02T13:51:11Z) - Type-Constrained Code Generation with Language Models [51.03439021895432]
本稿では,型システムを利用してコード生成を誘導する型制約デコード手法を提案する。
そこで本研究では,新しい接頭辞オートマトンと,在来型を探索する手法を開発し,LLM生成コードに適切な型付けを強制するための健全なアプローチを構築した。
提案手法は,コード合成,翻訳,修復作業において,コンパイルエラーを半分以上削減し,機能的正しさを著しく向上させる。
論文 参考訳(メタデータ) (2025-04-12T15:03:00Z) - ObscuraCoder: Powering Efficient Code LM Pre-Training Via Obfuscation Grounding [60.37988508851391]
言語モデル(LM)は、コード記述ツールボックスのベースとなっている。
Code-LMの事前学習目標の変更を探求する研究は、データ効率の向上と構文とセマンティクスの相互接続性の向上を目的としており、顕著に不十分である。
本研究では,Code-LMが表面的な構文を超越し,事前学習したサンプルの効率を高めるために,難読化コードの基盤について検討する。
論文 参考訳(メタデータ) (2025-03-27T23:08:53Z) - Token Assorted: Mixing Latent and Text Tokens for Improved Language Model Reasoning [53.57895922042783]
大規模言語モデル(LLM)は、チェーン・オブ・シークレット(CoT)データに基づいて訓練された場合、推論と計画が優れている。
そこで我々は,遅延離散トークンを用いて推論過程を部分的に抽象化するハイブリッド表現を提案する。
論文 参考訳(メタデータ) (2025-02-05T15:33:00Z) - Crystal: Illuminating LLM Abilities on Language and Code [58.5467653736537]
本稿では,自然言語と符号化機能の統合性を高めるための事前学習戦略を提案する。
結果のモデルであるCrystalは、両方のドメインで顕著な能力を示します。
論文 参考訳(メタデータ) (2024-11-06T10:28:46Z) - Tokenization as Finite-State Transduction [24.19959327497118]
正規言語の全てのトークン化を効率的にエンコードできる有限状態フレームワークを導入する。
そのByte-Pairを示します。
Match(BPE)とMaxPiece(WordPiece)がこのフレームワークに適合する。
これの応用は、あるパターンにマッチするように言語モデルの出力を制約するガイド付き生成である。
論文 参考訳(メタデータ) (2024-10-21T07:10:07Z) - Case2Code: Scalable Synthetic Data for Code Generation [105.89741089673575]
大規模言語モデル(LLM)は、コード生成において顕著なブレークスルーを示している。
最近の研究は、いくつかの強力なLLMによって生成された合成データをトレーニングすることで、コードLLMを改善している。
プログラムの表現性と正確性を利用したtextbfCase2Code タスクを提案する。
論文 参考訳(メタデータ) (2024-07-17T11:35:00Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。