論文の概要: SLA-Awareness for AI-assisted coding
- arxiv url: http://arxiv.org/abs/2503.19876v1
- Date: Tue, 25 Mar 2025 17:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.568619
- Title: SLA-Awareness for AI-assisted coding
- Title(参考訳): AI支援符号化におけるSLA-Awareness
- Authors: Kishanthan Thangarajah, Arthur Leung, Boyuan Chen, Ahmed E. Hassan,
- Abstract要約: 本稿では、待ち時間要件を満たし、リソース利用を最大化しながら、コーディングタスクの多様な構成を支援するためのコーディングアシスタントタスクオーケストレータ(CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
- 参考スコア(独自算出の注目度): 6.199193051670653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The integration of AI-assisted coding tools within development environments drastically reduces development time, and allows developers to focus more on creative and critical aspects of software engineering through the use of Code Large Language Models (CodeLLMs). These coding assistants automate repetitive and time-consuming coding tasks such as code generation, code completion, code summarization, and code translation. Responsiveness is a crucial requirement of these coding assistants to maintain real-time interactivity, such that their use does not impede the developers' workflows. Different coding tasks have unique characteristics and latency requirements: Time-To-First-Token (TTFT) latency is essential for code completion tasks, while End-To-End (E2E) latency is crucial for code translation tasks. Managing these varying requirements simultaneously while optimizing resource usage poses significant challenges. Existing work adopts the Model-as-a-Service paradigm for serving individual CodeLLMs, but cannot effectively manage latency requirements of concurrent coding tasks and sequences of CodeLLM inference calls, due to a lack of end-to-end latency awareness. Another challenge is keeping resource utilization high, when the serving system is deployed on a shared cluster environment. To address these challenges, we propose Coding Assistant Task Orchestrator (CATO), a runtime system designed to serve a diverse assortment of coding tasks while meeting latency requirements and maximizing resource utilization. Our experiments demonstrate that when all types of coding tasks were served simultaneously, for TTFT-critical tasks, CATO improves overall Goodput rate and resource utilization by up to 10% and 41.1%, respectively. P95 E2E latency was also reduced by 18% for code summarization tasks, and P95 TTFT for code generation tasks were reduced by 14% compared against state-of-the-art systems.
- Abstract(参考訳): 開発環境におけるAI支援コーディングツールの統合は、開発時間を劇的に短縮し、開発者がコード大言語モデル(Code Large Language Models, CodeLLMs)を使用することで、ソフトウェアエンジニアリングの創造的かつ重要な側面に集中できるようにする。
これらのコーディングアシスタントは、コード生成、コード補完、コードの要約、コード翻訳などの繰り返しおよび時間を要するコーディングタスクを自動化する。
開発者のワークフローに影響を与えないように、リアルタイムの対話性を維持するためのコーディングアシスタントにとって、応答性は重要な要件である。
コード補完タスクにはTTFT(Time-To-First-Token)レイテンシが不可欠であり、コード翻訳タスクにはEnd-To-End(E2E)レイテンシが不可欠である。
リソース使用量を最適化しながら、これらのさまざまな要件を同時に管理することは、大きな課題となる。
既存の作業では、個別のCodeLLMを提供するためのModel-as-a-Serviceパラダイムを採用しているが、エンドツーエンドのレイテンシ認識が欠如しているため、同時コーディングタスクとCodeLLM推論呼び出しのシーケンスのレイテンシ要求を効果的に管理することはできない。
もうひとつの課題は、サービスシステムが共有クラスタ環境にデプロイされる場合、リソース利用率を高く保つことだ。
このような課題に対処するため,我々は,待ち時間要件を満たし,リソース利用を最大化しながら,多種多様なコーディングタスクを提供するように設計されたランタイムシステムであるCoding Assistant Task Orchestrator (CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
P95 E2Eレイテンシもコード要約タスクでは18%削減され、コード生成タスクではP95 TTFTが14%削減された。
関連論文リスト
- DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - LongSpec: Long-Context Speculative Decoding with Efficient Drafting and Verification [42.54363549922909]
投機的復号化は、大規模言語モデルにおける自己回帰復号化の高推論遅延を軽減するための有望な手法となっている。
その約束にもかかわらず、LLMにおける投機的復号化の効果的な適用は、まだ3つの重要な課題に直面している。
これらの課題に対処することで、長期コンテキスト設定における投機的復号化の性能を向上させる。
論文 参考訳(メタデータ) (2025-02-24T18:53:31Z) - RL-RC-DoT: A Block-level RL agent for Task-Aware Video Compression [68.31184784672227]
自律運転のような現代的なアプリケーションでは、圧倒的多数のビデオがタスクを実行するAIシステムの入力として機能する。
したがって、画像の品質ではなく、下流タスクのためにエンコーダを最適化することが有用である。
ここでは、下流タスクを最適化するために、マクロブロックレベルで量子化パラメータ(QP)を制御することで、この問題に対処する。
論文 参考訳(メタデータ) (2025-01-21T15:36:08Z) - HyGen: Efficient LLM Serving via Elastic Online-Offline Request Co-location [3.348953136575379]
HyGenは、オンラインおよびオフラインワークロードの効率的なコロケーションを可能にする干渉対応LLMサービスシステムである。
運用負荷評価の結果,HyGenのスループットは最大3.87倍,オフラインスループットは5.84倍に向上した。
論文 参考訳(メタデータ) (2025-01-15T16:32:27Z) - Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-04T02:22:40Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Delay-aware Resource Allocation in Fog-assisted IoT Networks Through
Reinforcement Learning [22.624703832795355]
IoTデバイス近傍のFogノードは、IoTデバイスからタスクをオフロードすることで、低レイテンシサービスをプロビジョニングすることを約束している。
制約を満たす間、全てのタスクの遅延を最小限に抑えるため、リソース割り当て問題を調査する。
オンライン強化学習アルゴリズムを設計し,システムエクスペリエンスの再生データに基づいて,準最適決定をリアルタイムで行う。
論文 参考訳(メタデータ) (2020-04-30T05:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。