論文の概要: CodeSwift: Accelerating LLM Inference for Efficient Code Generation
- arxiv url: http://arxiv.org/abs/2502.17139v1
- Date: Mon, 24 Feb 2025 13:30:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:58:56.543498
- Title: CodeSwift: Accelerating LLM Inference for Efficient Code Generation
- Title(参考訳): CodeSwift: 効率的なコード生成のためのLCM推論の高速化
- Authors: Qianhui Zhao, Li Zhang, Fang Liu, Xiaoli Lian, Qiaoyuanhe Meng, Ziqian Jiao, Zetong Zhou, Borui Zhang, Runlin Guo, Jia Li,
- Abstract要約: コード生成に特化して設計された,高効率な推論高速化手法であるCodeSwiftを提案する。
CodeSwiftはマルチソースのデータストアを構築し、一般的な知識とプロジェクト固有の知識の両方へのアクセスを提供する。
実験の結果、CodeSwiftはリポジトリレベルのコード生成タスクとスタンドアロンコード生成タスクの自己回帰デコーディングと比較して、最大2.53倍と2.54倍のスピードアップに達することが示されている。
- 参考スコア(独自算出の注目度): 17.681848203476687
- License:
- Abstract: Code generation is a latency-sensitive task that demands high timeliness, but the autoregressive decoding mechanism of Large Language Models (LLMs) leads to poor inference efficiency. Existing LLM inference acceleration methods mainly focus on standalone functions using only built-in components. Moreover, they treat code like natural language sequences, ignoring its unique syntax and semantic characteristics. As a result, the effectiveness of these approaches in code generation tasks remains limited and fails to align with real-world programming scenarios. To alleviate this issue, we propose CodeSwift, a simple yet highly efficient inference acceleration approach specifically designed for code generation, without comprising the quality of the output. CodeSwift constructs a multi-source datastore, providing access to both general and project-specific knowledge, facilitating the retrieval of high-quality draft sequences. Moreover, CodeSwift reduces retrieval cost by controlling retrieval timing, and enhances efficiency through parallel retrieval and a context- and LLM preference-aware cache. Experimental results show that CodeSwift can reach up to 2.53x and 2.54x speedup compared to autoregressive decoding in repository-level and standalone code generation tasks, respectively, outperforming state-of-the-art inference acceleration approaches by up to 88%.
- Abstract(参考訳): コード生成は遅延に敏感なタスクであり、高いタイムラインを必要とするが、LLM(Large Language Models)の自動回帰デコーディングメカニズムは推論効率を低下させる。
既存のLLM推論加速法は主に組み込みコンポーネントのみを使用したスタンドアロン機能に重点を置いている。
さらに、コードは自然言語のシーケンスのように扱い、そのユニークな構文や意味的な特徴を無視します。
その結果、コード生成タスクにおけるこれらのアプローチの有効性は限定的であり、実際のプログラミングシナリオと一致しない。
この問題を軽減するために,コード生成に特化して設計されたシンプルかつ高効率な推論高速化手法であるCodeSwiftを提案する。
CodeSwiftは、汎用知識とプロジェクト固有の知識の両方へのアクセスを提供し、高品質なドラフトシーケンスの検索を容易にするマルチソースデータストアを構築する。
さらに、CodeSwiftは、検索タイミングを制御して検索コストを削減し、並列検索とコンテキストおよびLLM設定対応キャッシュによる効率を向上させる。
実験の結果、CodeSwiftはリポジトリレベルとスタンドアロンのコード生成タスクにおける自動回帰デコーディングと比較して最大2.53倍、最大2.54倍のスピードアップを達成でき、それぞれが最先端の推論アクセラレーションアプローチを最大88%上回っている。
関連論文リスト
- PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。
Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文 参考訳(メタデータ) (2024-10-14T07:05:51Z) - Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。
本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文 参考訳(メタデータ) (2024-08-10T21:24:25Z) - When to Stop? Towards Efficient Code Generation in LLMs with Excess Token Prevention [43.39584272739589]
コード生成におけるコードLLMの推論高速化手法であるCodeFastを紹介する。
CodeFastの主なアイデアは、不要な余分なトークンが検出された場合に、推論プロセスを終了させることである。
我々は、広く使われている4つのコード生成データセットにまたがる5つの代表的なコードLLM上で、CodeFastで広範な実験を行う。
論文 参考訳(メタデータ) (2024-07-29T14:27:08Z) - Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。
しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。
本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文 参考訳(メタデータ) (2024-05-24T04:35:13Z) - StepCoder: Improve Code Generation with Reinforcement Learning from
Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。
CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。
FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。
提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文 参考訳(メタデータ) (2024-02-02T13:14:31Z) - Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。
我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文 参考訳(メタデータ) (2023-11-14T15:56:18Z) - Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。
まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。
muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文 参考訳(メタデータ) (2023-09-28T02:58:07Z) - CodeT5+: Open Code Large Language Models for Code Understanding and
Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。
CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。
我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文 参考訳(メタデータ) (2023-05-13T14:23:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。