論文の概要: Executing as You Generate: Hiding Execution Latency in LLM Code Generation
- arxiv url: http://arxiv.org/abs/2604.00491v1
- Date: Wed, 01 Apr 2026 05:17:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-02 16:44:31.842237
- Title: Executing as You Generate: Hiding Execution Latency in LLM Code Generation
- Title(参考訳): あなたが生成する実行: LLMコード生成における実行レイテンシの保持
- Authors: Zhensu Sun, Zhihao Lin, Zhi Chen, Chengran Yang, Mingyi Zhou, Li Li, David Lo,
- Abstract要約: 人間の開発者とは異なり、LLMはコードトークンをリビジョンなしで逐次生成し、生成中のコードの実行を可能にする。
この並列実行パラダイムを形式化し、生成、検出、実行の三段階パイプラインとしてモデル化する。
Eagerは、ASTベースのチャンキング、動的エグゼキュータ実行、早期エラー割り込みを含む具体的な実装である。
- 参考スコア(独自算出の注目度): 17.179744696052065
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current LLM-based coding agents follow a serial execution paradigm: the model first generates the complete code, then invokes an interpreter to execute it. This sequential workflow leaves the executor idle during generation and the generator idle during execution, resulting in unnecessary end-to-end latency. We observe that, unlike human developers, LLMs produce code tokens sequentially without revision, making it possible to execute code as it is being generated. We formalize this parallel execution paradigm, modeling it as a three-stage pipeline of generation, detection, and execution, and derive closed-form latency bounds that characterize its speedup potential and operating regimes. We then present Eager, a concrete implementation featuring AST-based chunking, dynamic batching with gated execution, and early error interruption. We evaluate Eager across four benchmarks, seven LLMs, and three execution environments. Results show that Eager reduces the non-overlapped execution latency by up to 99.9% and the end-to-end latency by up to 55% across seven LLMs and four benchmarks.
- Abstract(参考訳): 現在のLLMベースのコーディングエージェントはシリアル実行パラダイムに従っており、モデルが最初に完全なコードを生成し、次にインタプリタを呼び出して実行する。
このシーケンシャルワークフローは、生成時にエグゼクタアイドル、実行時にジェネレータアイドルを残し、不要なエンドツーエンドのレイテンシをもたらす。
人間の開発者とは異なり、LLMはコードトークンをリビジョンなしで逐次生成し、生成中のコードの実行を可能にする。
この並列実行パラダイムを形式化し、生成、検出、実行の3段階パイプラインとしてモデル化し、そのスピードアップポテンシャルとオペレーショナルシステマを特徴付けるクローズドフォームのレイテンシ境界を導出する。
次にEagerを紹介します。これは、ASTベースのチャンキング、ゲート実行による動的バッチ、早期エラー中断を備えた具体的な実装です。
我々はEagerを4つのベンチマーク、7つのLSM、3つの実行環境で評価した。
その結果、Eagerはオーバーラップしない実行レイテンシを99.9%、エンドツーエンドのレイテンシを7つのLLMと4つのベンチマークで最大55%削減した。
関連論文リスト
- SpecEyes: Accelerating Agentic Multimodal LLMs via Speculative Perception and Planning [104.01865949020304]
エージェント・マルチモーダル・大規模言語モデル(MLLM)は,反復的な視覚的ツールの実行によって顕著な推論能力を達成する。
しかし、カスケード認識、推論、ツール呼び出しループは、重要なシーケンシャルなオーバーヘッドをもたらす。
このオーバーヘッドはエージェントディープと呼ばれ、禁止されたレイテンシを発生させ、システムレベルのスループットを著しく制限します。
本稿では,エージェントレベルの投機的アクセラレーションフレームワークであるSpecEyesを提案する。
論文 参考訳(メタデータ) (2026-03-24T17:45:47Z) - Prism: Efficient Test-Time Scaling via Hierarchical Search and Self-Verification for Discrete Diffusion Language Models [96.0074341403456]
LLM推論を改善するための実用的な方法として、推論時計算が再導入されている。
テスト時間スケーリング(TTS)アルゴリズムの多くは、自動回帰デコーディングに依存している。
そこで我々は,dLLM のための効率的な TTS フレームワーク Prism を提案する。
論文 参考訳(メタデータ) (2026-02-02T09:14:51Z) - Can LLMs Compress (and Decompress)? Evaluating Code Understanding and Execution via Invertibility [36.41073880422337]
RoundTripCodeEval(RTCE)は、4つの異なるコード実行推論タスクからなる包括的なベンチマークである。
ゼロショットプロンプト、実行トレースの教師付き微調整、自己回帰機構を用いて、最先端のコード-LLMを体系的に評価する。
RTCEは、既存のI/O予測、実行推論、ラウンドトリップの自然言語ベンチマークによって捉えられていない、これまで測定されていなかったいくつかの新しい洞察を表面化している。
論文 参考訳(メタデータ) (2026-01-19T21:09:48Z) - Learning Latency-Aware Orchestration for Parallel Multi-Agent Systems [18.192867631682674]
並列実行下での明示的なレイテンシを持つマルチエージェントシステムの学習に基づくオーケストレーションについて検討する。
本稿では,ワークアウェアなマルチエージェントオーケストレーションフレームワークであるLAMaSを提案する。
提案手法は,マルチエージェントアーキテクチャサーチにおける最先端のベースラインに比べて,クリティカルパス長を38~46%削減することを示す。
論文 参考訳(メタデータ) (2026-01-15T16:23:53Z) - EVM-QuestBench: An Execution-Grounded Benchmark for Natural-Language Transaction Code Generation [9.472124187479915]
オンチェーントランザクションのシナリオでは、小さなエラーでさえ、ユーザにとって不可逆的な損失を引き起こす可能性がある。
EVM-QuestBenchは自然言語トランザクションスクリプト生成のための実行基盤ベンチマークである。
単一動作精度と複数ステップのワークフロー完了の間に永続的な非対称性を示す分割スコアを用いて,20のモデルを評価し,大きな性能ギャップを求める。
論文 参考訳(メタデータ) (2026-01-10T13:25:27Z) - dParallel: Learnable Parallel Decoding for dLLMs [77.24184219948337]
拡散大言語モデル(dLLM)は並列トークン予測と低推論遅延を提供する。
既存のオープンソースモデルは、パフォーマンスを確保するためにトークン長のデコードステップをほとんど必要としています。
高速サンプリングのためにdLLMs固有の並列性を解き放つシンプルで効果的な方法であるdParallelを導入する。
論文 参考訳(メタデータ) (2025-09-30T16:32:52Z) - PerfCodeGen: Improving Performance of LLM Generated Code with Execution Feedback [78.89596149768458]
大規模言語モデル(LLM)は、ソフトウェア開発タスクを支援するために広く採用されている。
LLM生成コードの性能を向上させるトレーニングフリーフレームワークPerfCodeGenを提案する。
論文 参考訳(メタデータ) (2024-11-18T06:22:38Z) - COrAL: Order-Agnostic Language Modeling for Efficient Iterative Refinement [80.18490952057125]
反復改良は、複雑なタスクにおける大規模言語モデル(LLM)の能力を高める効果的なパラダイムとして登場した。
我々はこれらの課題を克服するために、コンテキストワイズ順序非依存言語モデリング(COrAL)を提案する。
当社のアプローチでは、管理可能なコンテキストウィンドウ内で複数のトークン依存関係をモデル化しています。
論文 参考訳(メタデータ) (2024-10-12T23:56:19Z) - An LLM Compiler for Parallel Function Calling [68.04566807806071]
我々は,複数の関数呼び出しを効率的にオーケストレーションするために並列に関数を実行するLLMCompilerを紹介する。
ReActと比較して、一貫したレイテンシの高速化が3.7倍、コストの削減が6.7倍、精度が9%向上している。
論文 参考訳(メタデータ) (2023-12-07T18:32:04Z) - SPEED: Speculative Pipelined Execution for Efficient Decoding [35.45955948053644]
本稿では,現在のトークンと並行して複数の将来トークンを投機的に実行することで,推論効率を向上させるSPEEDを提案する。
パラメータ共有を使用するTransformerデコーダでは、並列に実行されるトークンのメモリ操作を償却することができる。
モデル精度に対する遅延低減の観点から,本手法の有効性を実証し,パラメータ共有によるより深いデコーダのトレーニングを最小限のランタイムオーバーヘッドで行う方法を示した。
論文 参考訳(メタデータ) (2023-10-18T16:07:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。