論文の概要: ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation
- arxiv url: http://arxiv.org/abs/2601.09703v1
- Date: Wed, 14 Jan 2026 18:57:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.511338
- Title: ShortCoder: Knowledge-Augmented Syntax Optimization for Token-Efficient Code Generation
- Title(参考訳): ShortCoder: トークン効率の良いコード生成のための知識強化型構文最適化
- Authors: Sicong Liu, Yanxian Huang, Mingwei Liu, Jiachi Chen, Ensheng Shi, Yuchi Ma, Hongyu Zhang, Yin Zhang, Yanlin Wang,
- Abstract要約: コード生成効率を最適化する知識注入フレームワークであるShortCoderを提案する。
ShortCoderはHumanEvalの最先端メソッドを一貫して上回る。
- 参考スコア(独自算出の注目度): 27.9837392531619
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code generation tasks aim to automate the conversion of user requirements into executable code, significantly reducing manual development efforts and enhancing software productivity. The emergence of large language models (LLMs) has significantly advanced code generation, though their efficiency is still impacted by certain inherent architectural constraints. Each token generation necessitates a complete inference pass, requiring persistent retention of contextual information in memory and escalating resource consumption. While existing research prioritizes inference-phase optimizations such as prompt compression and model quantization, the generation phase remains underexplored. To tackle these challenges, we propose a knowledge-infused framework named ShortCoder, which optimizes code generation efficiency while preserving semantic equivalence and readability. In particular, we introduce: (1) ten syntax-level simplification rules for Python, derived from AST-preserving transformations, achieving 18.1% token reduction without functional compromise; (2) a hybrid data synthesis pipeline integrating rule-based rewriting with LLM-guided refinement, producing ShorterCodeBench, a corpus of validated tuples of original code and simplified code with semantic consistency; (3) a fine-tuning strategy that injects conciseness awareness into the base LLMs. Extensive experimental results demonstrate that ShortCoder consistently outperforms state-of-the-art methods on HumanEval, achieving an improvement of 18.1%-37.8% in generation efficiency over previous methods while ensuring the performance of code generation.
- Abstract(参考訳): コード生成タスクは、ユーザ要求の実行可能なコードへの変換を自動化し、手作業による開発作業を大幅に削減し、ソフトウェア生産性を向上させることを目的としています。
大規模言語モデル(LLM)の出現はコード生成が著しく進歩しているが、その効率性は固有のアーキテクチャ上の制約の影響を受けている。
各トークン生成は完全な推論パスを必要とし、メモリ内のコンテキスト情報の持続的保持とリソース消費のエスカレーションを必要とします。
既存の研究では、即時圧縮やモデル量子化といった推論フェーズの最適化が優先されているが、生成フェーズは未検討のままである。
これらの課題に対処するために,意味的等価性と可読性を保ちながらコード生成効率を最適化する,ShortCoderという知識注入型フレームワークを提案する。
特に,(1)AST保存変換から派生したPythonの構文レベルの単純化ルールを10種類導入し,機能的妥協なしに18.1%のトークン削減を実現した。(2)ルールベースの書き換えをLCM誘導の洗練と統合したハイブリッドデータ合成パイプラインで,元のコード検証タプルとセマンティック一貫性を持った単純化されたコードのコーパスであるShorterCodeBenchを生成,(3)簡潔さをベースLLMに注入する微調整戦略を導入する。
大規模な実験結果から、ShortCoderはHumanEvalの最先端メソッドを一貫して上回り、コード生成性能を確保しつつ、以前の手法よりも18.1%~37.8%のジェネレーション効率の向上を実現している。
関連論文リスト
- Readability-Robust Code Summarization via Meta Curriculum Learning [53.44612630063336]
現実の世界では、コードが貧弱な構造や難読化され、モデルのパフォーマンスが著しく低下することが多い。
本稿では,可読性の低いコードに対するコード要約の堅牢性を向上する,新しい微調整手法であるRoFTCodeSumを提案する。
論文 参考訳(メタデータ) (2026-01-09T02:38:24Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - CodeGrad: Integrating Multi-Step Verification with Gradient-Based LLM Refinement [12.792149709662874]
CodeGradは厳密な検証技術を反復生成ループに直接組み込む、原則化されたフレームワークを導入している。
コードを微分可能な変数として扱い、構造化されたフィードバックと数学的制約をテキストの擬似階調に変換する。
我々は,HumanEval,HumanEval+,LiveCodeBenchベンチマーク上でCodeGradを評価する。
論文 参考訳(メタデータ) (2025-08-12T22:03:54Z) - FastCoder: Accelerating Repository-level Code Generation via Efficient Retrieval and Verification [10.286072352686874]
我々は、コード生成用に特別に設計された推論アクセラレーションアプローチであるFastCoderを提案する。
FastCoderはマルチソースのデータストアを構築し、一般的な知識とプロジェクト固有の知識の両方へのアクセスを提供する。
リポジトリレベルとスタンドアロンのコード生成タスクにおける自動回帰デコードと比較して、最大2.53倍と2.54倍のスピードアップに達する。
論文 参考訳(メタデータ) (2025-02-24T13:30:30Z) - LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。
ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文 参考訳(メタデータ) (2025-02-17T07:01:18Z) - Less is More: Towards Green Code Large Language Models via Unified Structural Pruning [27.428983811427827]
語彙, 層, フィードフォワードネットワーク(FFN)プルーニングを組み合わせた, 革新的な統一的構造解析手法であるFlap-Prunerを提案する。
その結果、Flap-Prunerはパラメータの22%をプルーニングした後、元のパフォーマンスの97%を維持し、トレーニング後と同じあるいはそれ以上のパフォーマンスを達成していることがわかった。
論文 参考訳(メタデータ) (2024-12-20T14:13:09Z) - Exploring Data-Efficient Adaptation of Large Language Models for Code Generation [64.5583894165813]
コード生成のための誤り駆動学習を用いたデータ効率向上のための新しい適応手法DEEDを提案する。
実験により、他の主流の微調整手法と比較して、DEEDは訓練データが少なく、優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-02-29T16:09:02Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Accelerating LLaMA Inference by Enabling Intermediate Layer Decoding via
Instruction Tuning with LITE [62.13435256279566]
大規模言語モデル(LLM)は、様々な自然言語タスクで顕著なパフォーマンスを実現している。
しかし、その大きなサイズは推論を遅く、計算的に高価にする。
最終層の生成能力に影響を与えることなく、これらの層が「良い」生成能力を得ることができることを示す。
論文 参考訳(メタデータ) (2023-10-28T04:07:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。