論文の概要: Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation
- arxiv url: http://arxiv.org/abs/2405.15842v1
- Date: Fri, 24 May 2024 16:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:29:48.145139
- Title: Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation
- Title(参考訳): コードのためのモデルカスケード: LLMに基づくコード生成のためのモデルカスケードによる推論コストの削減
- Authors: Boyuan Chen, Mingzhi Zhu, Brendan Dolan-Gavitt, Muhammad Shafique, Siddharth Garg,
- Abstract要約: 本稿では,各モデルがそれぞれのソリューションに対して一連のテストケースを生成し,実行させ,その結果をカスケードしきい値として用いることを提案する。
モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
- 参考スコア(独自算出の注目度): 20.445496441396028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of large language models (LLMs) has led to significant advancements in code completion tasks. While larger models have higher accuracy, they also cost much more to run. Meanwhile, model cascading has been proven effective to conserve computational resources while enhancing accuracy in LLMs on natural language generation tasks. It generates output with the smallest model in a set, and only queries the larger models when it fails to meet predefined quality criteria. However, this strategy has not been used in code completion tasks, primarily because assessing the quality of code completions differs substantially from assessing natural language, where the former relies heavily on the functional correctness. To address this, we propose letting each model generate and execute a set of test cases for their solutions, and use the test results as the cascading threshold. We show that our model cascading strategy reduces computational costs while increases accuracy compared to generating the output with a single model. We also introduce a heuristics to determine the optimal combination of the number of solutions, test cases, and test lines each model should generate, based on the budget. Compared to speculative decoding, our method works on black-box models, having the same level of cost-accuracy trade-off, yet providing much more choices based on the server's budget. Ours is the first work to optimize cost-accuracy trade-off for LLM code generation with model cascading.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、コード補完タスクが大幅に進歩した。
大型モデルは精度が高いが、実行にははるかにコストがかかる。
一方、モデルカスケードは、自然言語生成タスクにおけるLLMの精度を高めつつ、計算資源の保存に有効であることが証明されている。
セットで最小のモデルで出力を生成し、事前定義された品質基準を満たしていない場合にのみ、より大きなモデルをクエリする。
しかし、この戦略はコード補完タスクでは使われていない。主な理由は、コード補完の質を評価することは、関数的正しさに大きく依存する自然言語を評価することとは大きく異なるためである。
この問題に対処するため、各モデルがそれぞれのソリューションに対して一連のテストケースを生成し実行させ、その結果をカスケードしきい値として使用することを提案する。
モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
また、予算に基づいて、各モデルが生成すべきソリューションの数、テストケース、テストラインの最適な組み合わせを決定するためのヒューリスティックスも導入します。
投機的復号法と比較すると,提案手法はブラックボックスモデルで動作し,コスト-精度のトレードオフが同じであるが,サーバの予算に基づいて,はるかに多くの選択肢を提供する。
LLMコード生成のコスト-精度トレードオフをモデルカスケードで最適化するための最初の取り組みである。
関連論文リスト
- Decoding-Time Language Model Alignment with Multiple Objectives [116.42095026960598]
既存の手法は主に、1つの報酬関数に対してLMを最適化することに集中し、それらの適応性は様々な目的に制限される。
本稿では,予測の線形結合から次のトークンを出力する復号時間アルゴリズムである$textbfmulti-objective decoding (MOD)$を提案する。
提案手法は, 自然条件下であっても, 既存のアプローチが準最適であることを示すとともに, 提案手法の最適性を保証する。
論文 参考訳(メタデータ) (2024-06-27T02:46:30Z) - Improving Large Models with Small models: Lower Costs and Better Performance [81.55672406002715]
我々は,小型モデルと大規模モデルの協調のための一般的なパラダイムであるData Shunt$+$ (DS$+$)を提案する。
例えば、ChatGPTはAmazon Productの感情分析で9,43%の精度を達成し、DS$+は9,5.64%の精度を達成している。
論文 参考訳(メタデータ) (2024-06-15T14:44:43Z) - Enhancing Code Generation Performance of Smaller Models by Distilling the Reasoning Ability of LLMs [36.409470894115074]
我々は、LLMのコード生成推論機能をより小さなモデルに転送することを目的としたCodePLANフレームワークを提案する。
提案手法は,APPSベンチマークにおいて,より小さなモデルのコード生成性能を130%以上向上させる。
論文 参考訳(メタデータ) (2024-03-20T03:09:54Z) - $C^3$: Confidence Calibration Model Cascade for Inference-Efficient
Cross-Lingual Natural Language Understanding [28.853593305486832]
言語間自然言語理解(NLU)は自然言語処理(NLP)において重要な課題である
近年,多言語事前学習言語モデル (mPLM) の進歩により,これらのタスクの性能が著しく向上している。
既存のモデルカスケード法は、様々なモデルから電流入力を処理できる最も軽量なモデルを選択して、推論効率を向上させる。
論文 参考訳(メタデータ) (2024-02-25T05:07:56Z) - Cascade Speculative Drafting for Even Faster LLM Inference [25.642604897018852]
投機的復号化により、大言語モデル(LLM)推論の効率が向上する。
本稿では2種類のカスケードを組み込んだ投機的実行アルゴリズムであるカスケード投機ドラフト(CS Drafting)を紹介する。
CS Draftingは、我々の実験で投機的復号化よりも81%の高速化を実現している。
論文 参考訳(メタデータ) (2023-12-18T18:59:46Z) - LLM-Assisted Code Cleaning For Training Accurate Code Generators [53.087019724256606]
コードの品質を調査した結果,より構造化され,読みやすくなれば,コード生成性能が向上することがわかった。
私たちは、これらの原則を使って既存のプログラムを変換する、新しいデータクリーニングパイプラインを構築します。
提案手法を2つのアルゴリズムコード生成ベンチマークで評価した結果,微調整のCodeLLaMa-7Bでは,元のデータセットの微調整に比べて最大30%性能が向上していることがわかった。
論文 参考訳(メタデータ) (2023-11-25T02:45:50Z) - Modeling Choice via Self-Attention [8.394221523847325]
注意に基づく選択モデルはHalo Multinomial Logit(Halo-MNL)モデルの低最適一般化であることを示す。
また、実データから選択を推定するための最初の現実的な尺度を確立し、既存のモデルの評価を行う。
論文 参考訳(メタデータ) (2023-11-11T11:13:07Z) - Quality-Aware Translation Models: Efficient Generation and Quality Estimation in a Single Model [77.19693792957614]
そこで我々は,ニューラルネットワーク翻訳(NMT)モデルを用いて,その品質を学習し,その品質を推定する手法を提案する。
我々は、単一パスの復号化の効率性よりも、品質向上や品質改善のアプローチよりも優れた品質向上を得る。
論文 参考訳(メタデータ) (2023-10-10T15:33:51Z) - Pruning Large Language Models via Accuracy Predictor [0.0]
数十億のパラメータ(あるいはそれ以上)を含む大規模言語モデル(LLM)は、様々なNLPタスクにおいて印象的な機能を示している。
まず,一定の数のアーキテクチャと精度のペアのトレーニングセットを構築し,非ニューラルネットワークモデルを精度予測器として訓練する。
論文 参考訳(メタデータ) (2023-09-18T06:38:24Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。