Fugu-MT 論文翻訳(概要): CodeSwift: Accelerating LLM Inference for Efficient Code Generation

論文の概要: CodeSwift: Accelerating LLM Inference for Efficient Code Generation

arxiv url: http://arxiv.org/abs/2502.17139v1
Date: Mon, 24 Feb 2025 13:30:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-25 22:36:56.579297
Title: CodeSwift: Accelerating LLM Inference for Efficient Code Generation
Title（参考訳）: CodeSwift: 効率的なコード生成のためのLCM推論の高速化
Authors: Qianhui Zhao, Li Zhang, Fang Liu, Xiaoli Lian, Qiaoyuanhe Meng, Ziqian Jiao, Zetong Zhou, Borui Zhang, Runlin Guo, Jia Li,
Abstract要約: コード生成に特化して設計された,高効率な推論高速化手法であるCodeSwiftを提案する。 CodeSwiftはマルチソースのデータストアを構築し、一般的な知識とプロジェクト固有の知識の両方へのアクセスを提供する。実験の結果、CodeSwiftはリポジトリレベルのコード生成タスクとスタンドアロンコード生成タスクの自己回帰デコーディングと比較して、最大2.53倍と2.54倍のスピードアップに達することが示されている。
参考スコア（独自算出の注目度）: 17.681848203476687
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Code generation is a latency-sensitive task that demands high timeliness, but the autoregressive decoding mechanism of Large Language Models (LLMs) leads to poor inference efficiency. Existing LLM inference acceleration methods mainly focus on standalone functions using only built-in components. Moreover, they treat code like natural language sequences, ignoring its unique syntax and semantic characteristics. As a result, the effectiveness of these approaches in code generation tasks remains limited and fails to align with real-world programming scenarios. To alleviate this issue, we propose CodeSwift, a simple yet highly efficient inference acceleration approach specifically designed for code generation, without comprising the quality of the output. CodeSwift constructs a multi-source datastore, providing access to both general and project-specific knowledge, facilitating the retrieval of high-quality draft sequences. Moreover, CodeSwift reduces retrieval cost by controlling retrieval timing, and enhances efficiency through parallel retrieval and a context- and LLM preference-aware cache. Experimental results show that CodeSwift can reach up to 2.53x and 2.54x speedup compared to autoregressive decoding in repository-level and standalone code generation tasks, respectively, outperforming state-of-the-art inference acceleration approaches by up to 88%.
Abstract（参考訳）: コード生成は遅延に敏感なタスクであり、高いタイムラインを必要とするが、LLM(Large Language Models)の自動回帰デコーディングメカニズムは推論効率を低下させる。既存のLLM推論加速法は主に組み込みコンポーネントのみを使用したスタンドアロン機能に重点を置いている。さらに、コードは自然言語のシーケンスのように扱い、そのユニークな構文や意味的な特徴を無視します。その結果、コード生成タスクにおけるこれらのアプローチの有効性は限定的であり、実際のプログラミングシナリオと一致しない。この問題を軽減するために,コード生成に特化して設計されたシンプルかつ高効率な推論高速化手法であるCodeSwiftを提案する。 CodeSwiftは、汎用知識とプロジェクト固有の知識の両方へのアクセスを提供し、高品質なドラフトシーケンスの検索を容易にするマルチソースデータストアを構築する。さらに、CodeSwiftは、検索タイミングを制御して検索コストを削減し、並列検索とコンテキストおよびLLM設定対応キャッシュによる効率を向上させる。実験の結果、CodeSwiftはリポジトリレベルとスタンドアロンのコード生成タスクにおける自動回帰デコーディングと比較して最大2.53倍、最大2.54倍のスピードアップを達成でき、それぞれが最先端の推論アクセラレーションアプローチを最大88%上回っている。

関連論文リスト

AdaDecode: Accelerating LLM Decoding with Adaptive Layer Parallelism [17.858104076062897]
大規模言語モデル (LLM) は、長いコンテンツ生成にますます使われている。補助モデルや元のモデルパラメータの変更を必要とせずにデコーディングを高速化するAdaDecodeを提案する。 AdaDecodeは最大1.73倍のスピードアップで優れた復号処理を実現している。
論文参考訳（メタデータ） (2025-06-04T08:32:30Z)
Reuse or Generate? Accelerating Code Editing via Edit-Oriented Speculative Decoding [13.813068175559456]
大規模言語モデル(LLM)は、コード編集において顕著な能力を示し、ソフトウェア開発の生産性を大幅に向上させた。提案するEfficientEditは,投機的復号化に基づく2つのキー機構により,LLMベースのコード編集効率を向上させる手法である。実験の結果、EfficientEditは10.38$times$と13.09$times$speedupを標準の自己回帰デコードと比較して達成できることがわかった。
論文参考訳（メタデータ） (2025-06-03T12:01:20Z)
FastCar: Cache Attentive Replay for Fast Auto-Regressive Video Generation on the Edge [60.000984252907195]
自動回帰(AR)モデルは、サンプリング効率が優れているため、近年、視覚生成タスクにおいて有望であることが示されている。ビデオ生成は、コヒーレントな時間フレームを生成するために、かなり多くのトークンを必要とする。我々は,時間的冗長性を探究して,ARビデオ生成のデコードフェーズを高速化する textbfFastCar フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-17T05:00:39Z)
LoRACode: LoRA Adapters for Code Embeddings [1.5525560291268214]
コード検索のためのタスク固有アダプタを構築するために,ローランド適応(LoRA)に基づくパラメータ効率の微調整手法を提案する。提案手法では,トレーニング可能なパラメータの数をベースモデルの2%未満に削減し,広範なコードコーパスを高速に微調整する。
論文参考訳（メタデータ） (2025-03-07T10:50:45Z)
LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文参考訳（メタデータ） (2025-02-24T18:53:31Z)
LLM4EFFI: Leveraging Large Language Models to Enhance Code Efficiency and Correctness [38.399282089600284]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを示している。 ulineLarge ulineLanguage ulineModel for Code ulineEfficiencyは、LLMが効率性と正確性の両方のバランスをとるコードを生成することができる新しいフレームワークである。
論文参考訳（メタデータ） (2025-02-17T07:01:18Z)
PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。 LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文参考訳（メタデータ） (2024-11-18T06:22:38Z)
Effi-Code: Unleashing Code Efficiency in Language Models [17.355845751737423]
Effi-Codeは、大規模言語モデルにおけるコード生成を強化するアプローチである。 Effi-Codeは、AIシステムのコード生成を改善するためのスケーラブルで汎用的なアプローチを提供する。
論文参考訳（メタデータ） (2024-10-14T07:05:51Z)
Speculative Diffusion Decoding: Accelerating Language Generation through Diffusion [55.0194604505437]
投機的復号化は,大規模言語モデル推論を高速化する手法として広く採用されている。本稿では,離散拡散モデルを用いてドラフトシーケンスを生成する投機的復号法を提案する。
論文参考訳（メタデータ） (2024-08-10T21:24:25Z)
When to Stop? Towards Efficient Code Generation in LLMs with Excess Token Prevention [43.39584272739589]
コード生成におけるコードLLMの推論高速化手法であるCodeFastを紹介する。 CodeFastの主なアイデアは、不要な余分なトークンが検出された場合に、推論プロセスを終了させることである。我々は、広く使われている4つのコード生成データセットにまたがる5つの代表的なコードLLM上で、CodeFastで広範な実験を行う。
論文参考訳（メタデータ） (2024-07-29T14:27:08Z)
Decoding at the Speed of Thought: Harnessing Parallel Decoding of Lexical Units for LLMs [57.27982780697922]
大規模言語モデルは、自然言語の理解と生成において例外的な能力を示した。しかし、それらの生成速度は、その復号過程の本質的にシーケンシャルな性質によって制限される。本稿では,データ駆動方式で実装された新しいデコーディング手法であるLexical Unit Decodingを紹介する。
論文参考訳（メタデータ） (2024-05-24T04:35:13Z)
StepCoder: Improve Code Generation with Reinforcement Learning from Compiler Feedback [58.20547418182074]
2つの主要コンポーネントからなるコード生成の新しいフレームワークであるStepCoderを紹介します。 CCCSは、長いシーケンスのコード生成タスクをCurriculum of Code Completion Subtaskに分割することで、探索課題に対処する。 FGOは、未実行のコードセグメントをマスクすることでのみモデルを最適化し、Fine-Grained Optimizationを提供する。提案手法は,出力空間を探索し,対応するベンチマークにおいて最先端の手法より優れた性能を発揮する。
論文参考訳（メタデータ） (2024-02-02T13:14:31Z)
Fast Chain-of-Thought: A Glance of Future from Parallel Decoding Leads to Answers Faster [61.83949316226113]
FastCoTは並列デコーディングに基づくモデルに依存しないフレームワークである。我々は、FastCoTが通常のアプローチと比較して、無視できる性能低下だけで、推論時間を20%近く削減できることを示します。
論文参考訳（メタデータ） (2023-11-14T15:56:18Z)
Fixing Large Language Models' Specification Misunderstanding for Better Code Generation [13.494822086550604]
muFiXは、大きな言語モデル(LLM)のコード生成性能を改善する新しいプロンプト技術である。まず、テストケース分析を利用して仕様の理解を得、自己改善プロセスを可能にする。 muFiXはさらに、提供された理解と実際の理解の間のギャップを減らす方向に向けた仕様理解を修正している。
論文参考訳（メタデータ） (2023-09-28T02:58:07Z)
CodeT5+: Open Code Large Language Models for Code Understanding and Generation [72.1638273937025]
大きな言語モデル (LLM) は膨大なソースコードで事前訓練されており、コードインテリジェンスにおいて顕著な進歩を遂げている。 CodeT5+は、コンポーネントモジュールを柔軟に組み合わせて、幅広い下流のコードタスクに適合させることができるコードのためのエンコーダ-デコーダLLMのファミリーである。我々は、ゼロショット、微調整、命令調整を含む20以上のコード関連ベンチマークでCodeT5+を広範囲に評価した。
論文参考訳（メタデータ） (2023-05-13T14:23:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。