論文の概要: SLA-Awareness for AI-assisted coding
- arxiv url: http://arxiv.org/abs/2503.19876v1
- Date: Tue, 25 Mar 2025 17:38:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:51:21.780539
- Title: SLA-Awareness for AI-assisted coding
- Title(参考訳): AI支援符号化におけるSLA-Awareness
- Authors: Kishanthan Thangarajah, Arthur Leung, Boyuan Chen, Ahmed E. Hassan,
- Abstract要約: 本稿では、待ち時間要件を満たし、リソース利用を最大化しながら、コーディングタスクの多様な構成を支援するためのコーディングアシスタントタスクオーケストレータ(CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
- 参考スコア(独自算出の注目度): 6.199193051670653
- License:
- Abstract: The integration of AI-assisted coding tools within development environments drastically reduces development time, and allows developers to focus more on creative and critical aspects of software engineering through the use of Code Large Language Models (CodeLLMs). These coding assistants automate repetitive and time-consuming coding tasks such as code generation, code completion, code summarization, and code translation. Responsiveness is a crucial requirement of these coding assistants to maintain real-time interactivity, such that their use does not impede the developers' workflows. Different coding tasks have unique characteristics and latency requirements: Time-To-First-Token (TTFT) latency is essential for code completion tasks, while End-To-End (E2E) latency is crucial for code translation tasks. Managing these varying requirements simultaneously while optimizing resource usage poses significant challenges. Existing work adopts the Model-as-a-Service paradigm for serving individual CodeLLMs, but cannot effectively manage latency requirements of concurrent coding tasks and sequences of CodeLLM inference calls, due to a lack of end-to-end latency awareness. Another challenge is keeping resource utilization high, when the serving system is deployed on a shared cluster environment. To address these challenges, we propose Coding Assistant Task Orchestrator (CATO), a runtime system designed to serve a diverse assortment of coding tasks while meeting latency requirements and maximizing resource utilization. Our experiments demonstrate that when all types of coding tasks were served simultaneously, for TTFT-critical tasks, CATO improves overall Goodput rate and resource utilization by up to 10% and 41.1%, respectively. P95 E2E latency was also reduced by 18% for code summarization tasks, and P95 TTFT for code generation tasks were reduced by 14% compared against state-of-the-art systems.
- Abstract(参考訳): 開発環境におけるAI支援コーディングツールの統合は、開発時間を劇的に短縮し、開発者がコード大言語モデル(Code Large Language Models, CodeLLMs)を使用することで、ソフトウェアエンジニアリングの創造的かつ重要な側面に集中できるようにする。
これらのコーディングアシスタントは、コード生成、コード補完、コードの要約、コード翻訳などの繰り返しおよび時間を要するコーディングタスクを自動化する。
開発者のワークフローに影響を与えないように、リアルタイムの対話性を維持するためのコーディングアシスタントにとって、応答性は重要な要件である。
コード補完タスクにはTTFT(Time-To-First-Token)レイテンシが不可欠であり、コード翻訳タスクにはEnd-To-End(E2E)レイテンシが不可欠である。
リソース使用量を最適化しながら、これらのさまざまな要件を同時に管理することは、大きな課題となる。
既存の作業では、個別のCodeLLMを提供するためのModel-as-a-Serviceパラダイムを採用しているが、エンドツーエンドのレイテンシ認識が欠如しているため、同時コーディングタスクとCodeLLM推論呼び出しのシーケンスのレイテンシ要求を効果的に管理することはできない。
もうひとつの課題は、サービスシステムが共有クラスタ環境にデプロイされる場合、リソース利用率を高く保つことだ。
このような課題に対処するため,我々は,待ち時間要件を満たし,リソース利用を最大化しながら,多種多様なコーディングタスクを提供するように設計されたランタイムシステムであるCoding Assistant Task Orchestrator (CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
P95 E2Eレイテンシもコード要約タスクでは18%削減され、コード生成タスクではP95 TTFTが14%削減された。
関連論文リスト
- Agent-Driven Automatic Software Improvement [55.2480439325792]
本提案は,Large Language Models (LLMs) を利用したエージェントの展開に着目して,革新的なソリューションの探求を目的とする。
継続的学習と適応を可能にするエージェントの反復的性質は、コード生成における一般的な課題を克服するのに役立ちます。
我々は,これらのシステムにおける反復的なフィードバックを用いて,エージェントの基盤となるLLMをさらに微調整し,自動化されたソフトウェア改善のタスクに整合性を持たせることを目指している。
論文 参考訳(メタデータ) (2024-06-24T15:45:22Z) - RL-GPT: Integrating Reinforcement Learning and Code-as-policy [82.1804241891039]
本稿では,低速エージェントと高速エージェントからなる2レベル階層型フレームワークRL-GPTを提案する。
遅いエージェントはコーディングに適したアクションを分析し、速いエージェントはコーディングタスクを実行する。
この分解は、各エージェントが特定のタスクに効果的に集中し、パイプライン内で非常に効率的なことを証明します。
論文 参考訳(メタデータ) (2024-02-29T16:07:22Z) - MFTCoder: Boosting Code LLMs with Multitask Fine-Tuning [28.12788291168137]
複数のタスクを同時に並列に微調整できるマルチタスクファインチューニングフレームワーク MFTcoder を提案する。
実験により、我々のマルチタスクファインチューニングアプローチは、単一タスクにおける個々のファインチューニングと、混合タスクにおけるファインチューニングの両方より優れていることが示された。
論文 参考訳(メタデータ) (2023-11-04T02:22:40Z) - Efficient Controllable Multi-Task Architectures [85.76598445904374]
本稿では,共有エンコーダとタスク固有デコーダからなるマルチタスクモデルを提案する。
我々のキーとなる考え方は、タスク固有のデコーダの容量を変化させ、計算コストの総和を制御し、タスクの重要度を制御することである。
これにより、与えられた予算に対してより強力なエンコーダを許可し、計算コストの制御を高め、高品質のスリム化サブアーキテクチャを提供することにより、全体的な精度を向上させる。
論文 参考訳(メタデータ) (2023-08-22T19:09:56Z) - A Makespan and Energy-Aware Scheduling Algorithm for Workflows under
Reliability Constraint on a Multiprocessor Platform [11.427019313284]
本稿では,所定の信頼性制約に対する等間隔とエネルギーを最小化するワークフロースケジューリングアルゴリズムを提案する。
私たちのアルゴリズムであるMERTとEAFTSは最先端のアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-12-19T07:03:04Z) - An Intelligent Deterministic Scheduling Method for Ultra-Low Latency
Communication in Edge Enabled Industrial Internet of Things [19.277349546331557]
時間知覚ネットワーク (TSN) は, 決定論的スケジューリングによる低遅延通信を実現するために最近研究されている。
非衝突理論に基づく決定論的スケジューリング (NDS) 法を提案し, 時間に敏感な流れに対する超低遅延通信を実現する。
実験の結果,NDS/DQSは決定論的超低レイテンシサービスを十分にサポートし,帯域幅の有効利用を保証できることがわかった。
論文 参考訳(メタデータ) (2022-07-17T16:52:51Z) - DyTox: Transformers for Continual Learning with DYnamic TOken eXpansion [89.92242000948026]
本稿では,専用エンコーダ/デコーダフレームワークに基づくトランスフォーマアーキテクチャを提案する。
特別なトークンを動的に拡張することで、タスク分布上でデコーダネットワークの各前方を特殊化する。
私たちの戦略は、無視可能なメモリと時間オーバーヘッドを抱えながら、多数のタスクにスケールします。
論文 参考訳(メタデータ) (2021-11-22T16:29:06Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - Delay-aware Resource Allocation in Fog-assisted IoT Networks Through
Reinforcement Learning [22.624703832795355]
IoTデバイス近傍のFogノードは、IoTデバイスからタスクをオフロードすることで、低レイテンシサービスをプロビジョニングすることを約束している。
制約を満たす間、全てのタスクの遅延を最小限に抑えるため、リソース割り当て問題を調査する。
オンライン強化学習アルゴリズムを設計し,システムエクスペリエンスの再生データに基づいて,準最適決定をリアルタイムで行う。
論文 参考訳(メタデータ) (2020-04-30T05:07:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。