論文の概要: Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading
- arxiv url: http://arxiv.org/abs/2603.05974v2
- Date: Mon, 09 Mar 2026 01:59:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.508409
- Title: Balancing Latency and Accuracy of Code Completion via Local-Cloud Model Cascading
- Title(参考訳): ローカルクラウドモデルカスケードによるコード補完のレイテンシと精度のバランシング
- Authors: Hanzhen Lu, Lishui Fan, Jiachi Chen, Qiuyuan Chen, Zhao Wei, Zhongxin Liu,
- Abstract要約: ラインレベルのコード補完は、高い精度と低レイテンシのバランスを必要とする。
大規模言語モデル(LLM)は高品質な提案を提供するが、レイテンシが低いのに対して、小さな言語モデル(SLM)は高速だが最適ではないことが多い。
クラウドベースのLCMでローカルSLMをカスケードするMCComを提案する。
- 参考スコア(独自算出の注目度): 12.379959412115062
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Line-level code completion requires a critical balance between high accuracy and low latency. Existing methods suffer from a trade-off: large language models (LLMs) provide high-quality suggestions but incur high latency, while small language models (SLMs) are fast but often suboptimal. We propose MCCom (Model-Cascading-based code Completion), a framework that cascades a local SLM with a cloud-based LLM. To achieve effective cascading, MCCom leverages user actions as a novel signal to trigger the LLM only when the SLM fails, significantly reducing cloud computation costs. Furthermore, we introduce a two-stage speculative decoding strategy and an iterative retrieval mechanism to enhance collaboration between the models. We also train a 121M-parameter lightweight model, which achieves 73.8% of the performance of a 7B state-of-the-art model. Evaluated on RepoEval and a new real-world benchmark StmtEval, MCCom reduces inference latency by up to 47.9% and LLM usage by 46.3%, while improving the LLM's exact match rate by 8.9% through effective collaboration.
- Abstract(参考訳): ラインレベルのコード補完は、高い精度と低レイテンシの間に重要なバランスを必要とする。
大規模言語モデル(LLM)は高品質な提案を提供するが、レイテンシが低いのに対して、小さな言語モデル(SLM)は高速だが最適ではないことが多い。
我々は,ローカルSLMをクラウドベースのLCMでカスケードするMCCom(Model-Cascading-based code Completion)を提案する。
効率的なカスケードを実現するため、MCComはユーザアクションを新しい信号として活用し、SLMが失敗した場合にのみLCMをトリガーし、クラウド計算コストを大幅に削減する。
さらに,モデル間の協調性を高めるために,2段階の投機的復号化戦略と反復的検索機構を導入する。
また、121Mの軽量モデルも訓練し、7Bの最先端モデルの性能の73.8%を達成した。
RepoEvalと新しい実世界のベンチマークであるStmtEvalに基づいて評価され、MCComは推論遅延を47.9%まで削減し、LLMの使用率を46.3%削減し、LLMの正確なマッチングレートを8.9%改善した。
関連論文リスト
- RelayLLM: Efficient Reasoning via Collaborative Decoding [23.351598429979024]
RelayLLMはトークンレベルのコラボレーティブデコーディングによる効率的な推論のための新しいフレームワークである。
RelayLLM の平均精度は 49.52% であり,両モデル間の性能ギャップを効果的に埋めることを示す。
論文 参考訳(メタデータ) (2026-01-08T17:56:16Z) - Nemotron-Flash: Towards Latency-Optimal Hybrid Small Language Models [97.55009021098554]
本研究の目的は、SLMのリアルタイムレイテンシの主要な決定要因を特定し、SLMの設計とトレーニングのための一般化可能な原則と方法論を提供することである。
我々はNemotron-Flashと呼ばれるハイブリッドSLMの新たなファミリーを導入し、最先端SLMの精度・効率のフロンティアを大幅に向上させる。
論文 参考訳(メタデータ) (2025-11-24T08:46:36Z) - CMoE: Converting Mixture-of-Experts from Dense to Accelerate LLM Inference [33.871080938643566]
CMoEは、高密度言語モデルをトレーニングなしで、ミックス・オブ・エキスパート(MoE)に迅速に変換するフレームワークである。
実験により、75%の活性化比で、パープレキシティの点で顕著な結果が得られることが示された。
パラメータの25%をアクティベートするCMoE構成は、追加のトレーニングなしで使用可能なパープレキシティを保ちながら、エンドツーエンドのレイテンシを1.5倍削減する。
論文 参考訳(メタデータ) (2025-02-06T14:05:30Z) - Rational Tuning of LLM Cascades via Probabilistic Modeling [0.9208007322096532]
大規模言語モデル(LLM)の連立性能分布の確率的モデルを提案する。
ベイズ最適化を用いた信頼しきい値の選択と比較すると、マルコフパラメトリックコプラモデルの方がエラーコストのトレードオフに有利である。
異なるLLMの誤差率間の相互作用に関する我々のフレームワークの帰納的仮定は、サンプル効率を高める。
論文 参考訳(メタデータ) (2025-01-16T07:58:33Z) - LiveMind: Low-latency Large Language Models with Simultaneous Inference [9.795240210326346]
大規模言語モデル(LLM)推論のための新しい低レイテンシ推論フレームワークであるLiveMindを紹介する。
計算処理を入力フェーズに再配置することで、レイテンシを大幅に削減できる。
このフレームワークは、モデルに対するストリーミングインプットの可視性を管理し、不完全なユーザインプットから推論したり、追加コンテンツを待つことができる。
論文 参考訳(メタデータ) (2024-06-20T13:52:30Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Characterizing the Accuracy -- Efficiency Trade-off of Low-rank Decomposition in Language Models [1.401463252785724]
低ランクの分解は、大規模にリアルタイムサービスを必要とするLLMベースのアプリケーションにとって有望な方向である。
低ランクな分解設計空間を形式化し、分解設計空間が巨大であることを示す。
以上の結果から,最小精度で9%のモデルサイズ削減を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-05-10T17:40:02Z) - Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。
動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。
本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文 参考訳(メタデータ) (2023-10-13T07:38:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。