論文の概要: Context-Aware CodeLLM Eviction for AI-assisted Coding
- arxiv url: http://arxiv.org/abs/2506.18796v1
- Date: Mon, 23 Jun 2025 16:03:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:37.07662
- Title: Context-Aware CodeLLM Eviction for AI-assisted Coding
- Title(参考訳): AI支援符号化のための文脈認識型CodeLLM
- Authors: Kishanthan Thangarajah, Boyuan Chen, Shi Chang, Ahmed E. Hassan,
- Abstract要約: Code Large Language Models (CodeLLMs) を利用したAI支援コーディングツールは、現代のソフトウェア開発にますます統合されている。
プライバシやレイテンシ、モデルのカスタマイズに関する懸念に対処するため、多くの企業は、これらのモデルをセルフホストすることにしました。
本稿では,リソース制約下での自己ホスト型CodeLLMの最適化に特化して設計された,コンテキスト対応モデル消去戦略であるCACEを提案する。
- 参考スコア(独自算出の注目度): 6.199193051670653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: AI-assisted coding tools powered by Code Large Language Models (CodeLLMs) are increasingly integrated into modern software development workflows. To address concerns around privacy, latency, and model customization, many enterprises opt to self-host these models. However, the diversity and growing number of CodeLLMs, coupled with limited accelerator memory, introduce practical challenges in model management and serving efficiency. This paper presents CACE, a novel context-aware model eviction strategy designed specifically to optimize self-hosted CodeLLM serving under resource constraints. Unlike traditional eviction strategies based solely on recency (e.g., Least Recently Used), CACE leverages multiple context-aware factors, including model load time, task-specific latency sensitivity, expected output length, and recent usage and future demand tracked through a sliding window. We evaluate CACE using realistic workloads that include both latency-sensitive code completion and throughput-intensive code reasoning tasks. Our experiments show that CACE reduces Time-to-First-Token (TTFT) and end-to-end (E2E) latency, while significantly lowering the number of model evictions compared to state-of-the-art systems. Ablation studies further demonstrate the importance of multi-factor eviction in balancing responsiveness and resource efficiency. This work contributes practical strategies for deploying scalable, low-latency AI coding assistants in real-world software engineering environments.
- Abstract(参考訳): Code Large Language Models (CodeLLMs) を利用したAI支援コーディングツールは、現代のソフトウェア開発ワークフローにますます統合されている。
プライバシやレイテンシ、モデルのカスタマイズに関する懸念に対処するため、多くの企業は、これらのモデルをセルフホストすることにしました。
しかし、CodeLLMの多様性と増加は、限られたアクセラレータメモリと組み合わせることで、モデル管理とサービス効率の実践的な課題をもたらす。
本稿では,リソース制約下での自己ホスト型CodeLLMの最適化に特化して設計された,コンテキスト対応モデル消去戦略であるCACEを提案する。
回帰のみに基づく従来の排除戦略(例:Last recently Used)とは異なり、CACEはモデル負荷時間、タスク固有の遅延感度、期待される出力長、最近の使用状況とスライディングウィンドウで追跡される将来の要求など、複数のコンテキスト認識要素を活用する。
我々は、レイテンシに敏感なコード補完とスループット集約的なコード推論タスクの両方を含む現実的なワークロードを使用して、CACEを評価する。
実験の結果,CACEはTTFT (Time-to-First-Token) とE2E (End-to-end) のレイテンシを低減できる一方で,最先端システムと比較してモデル消去の回数を大幅に削減できることがわかった。
アブレーション研究は、応答性と資源効率のバランスをとる上で、多要素の排除の重要性をさらに示している。
この研究は、現実世界のソフトウェアエンジニアリング環境でスケーラブルで低レイテンシなAIコーディングアシスタントをデプロイするための実践的な戦略に貢献している。
関連論文リスト
- Co-Saving: Resource Aware Multi-Agent Collaboration for Software Development [65.94639060883475]
本稿では,リソースを意識したマルチエージェントシステムであるCo-Savingを提案する。
私たちの重要なイノベーションは、"ショートカット"の導入です。
最先端のMAS ChatDevと比較して,トークン使用量の平均50.85%の削減を実現している。
論文 参考訳(メタデータ) (2025-05-28T02:23:53Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - SLA-Awareness for AI-assisted coding [6.199193051670653]
本稿では、待ち時間要件を満たし、リソース利用を最大化しながら、コーディングタスクの多様な構成を支援するためのコーディングアシスタントタスクオーケストレータ(CATO)を提案する。
実験の結果,TTFTクリティカルなタスクに対して,すべてのコーディングタスクを同時に実行する場合,CATOは,それぞれ最大10%,41.1%のリソース利用率を向上することがわかった。
論文 参考訳(メタデータ) (2025-03-25T17:38:28Z) - DuoDecoding: Hardware-aware Heterogeneous Speculative Decoding with Dynamic Multi-Sequence Drafting [59.57151419673759]
投機的復号化は、出力分布の忠実さを維持しながら生成遅延を低減するドラフト・then-verifyフレームワークを提供する。
我々は、CPUとGPUにそれぞれドラフトモデルとターゲットモデルを戦略的にデプロイする新しいアプローチであるDuoDecodingを提案する。
本手法は,アイドル時間を最小限に抑えるため,ハードウェア対応の最適ドラフト予算を組み込んで,動的マルチシーケンスドラフトを用いて,ドラフト品質を向上させる。
論文 参考訳(メタデータ) (2025-03-02T08:27:48Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [70.91804882618243]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Accelerating AIGC Services with Latent Action Diffusion Scheduling in Edge Networks [27.961536719427205]
現在のAIGCモデルは、主に集中型のフレームワーク内のコンテンツ品質に焦点を当てており、高いサービス遅延とネガティブなユーザエクスペリエンスをもたらす。
高速AIGCサービスのための複数のエッジサーバを編成する新しい遅延アクション拡散に基づくタスクスケジューリング手法であるLAD-TSを提案する。
また,AIGCモデルを改良したプロトタイプエッジシステムであるDEdgeAIを開発し,LAD-TS法の実装と評価を行った。
論文 参考訳(メタデータ) (2024-12-24T06:40:13Z) - GUIDE: A Global Unified Inference Engine for Deploying Large Language Models in Heterogeneous Environments [1.0558515062670693]
現実世界のシナリオにおける大規模言語モデル(LLM)は依然として重要な課題である。
これらの課題は、しばしばメモリ使用率、レイテンシ、スループットの非効率につながる。
バッチレイテンシ、TTFT、デコードスループットといった主要なメトリクスに対して、予測エラーを9.9%から42.3%の精度で達成し、これらの問題に対処するフレームワークを開発する。
論文 参考訳(メタデータ) (2024-12-06T05:46:43Z) - A Graph Neural Networks based Framework for Topology-Aware Proactive SLA
Management in a Latency Critical NFV Application Use-case [0.34376560669160383]
5Gと6Gの最近の進歩は、ネットワークシリーズ(NFV)によって実現される遅延クリティカルなアプリケーションの出現につながっている。
本稿では,グラフニューラルネットワーク(GNN)と深層強化学習(DRL)を活用して,効率性と信頼性のトレードオフをバランスさせる,積極的なSLA管理フレームワークを提案する。
論文 参考訳(メタデータ) (2022-11-10T23:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。