論文の概要: Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation
- arxiv url: http://arxiv.org/abs/2405.15842v1
- Date: Fri, 24 May 2024 16:20:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:29:48.145139
- Title: Model Cascading for Code: Reducing Inference Costs with Model Cascading for LLM Based Code Generation
- Title(参考訳): コードのためのモデルカスケード: LLMに基づくコード生成のためのモデルカスケードによる推論コストの削減
- Authors: Boyuan Chen, Mingzhi Zhu, Brendan Dolan-Gavitt, Muhammad Shafique, Siddharth Garg,
- Abstract要約: 本稿では,各モデルがそれぞれのソリューションに対して一連のテストケースを生成し,実行させ,その結果をカスケードしきい値として用いることを提案する。
モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
- 参考スコア(独自算出の注目度): 20.445496441396028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid development of large language models (LLMs) has led to significant advancements in code completion tasks. While larger models have higher accuracy, they also cost much more to run. Meanwhile, model cascading has been proven effective to conserve computational resources while enhancing accuracy in LLMs on natural language generation tasks. It generates output with the smallest model in a set, and only queries the larger models when it fails to meet predefined quality criteria. However, this strategy has not been used in code completion tasks, primarily because assessing the quality of code completions differs substantially from assessing natural language, where the former relies heavily on the functional correctness. To address this, we propose letting each model generate and execute a set of test cases for their solutions, and use the test results as the cascading threshold. We show that our model cascading strategy reduces computational costs while increases accuracy compared to generating the output with a single model. We also introduce a heuristics to determine the optimal combination of the number of solutions, test cases, and test lines each model should generate, based on the budget. Compared to speculative decoding, our method works on black-box models, having the same level of cost-accuracy trade-off, yet providing much more choices based on the server's budget. Ours is the first work to optimize cost-accuracy trade-off for LLM code generation with model cascading.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発により、コード補完タスクが大幅に進歩した。
大型モデルは精度が高いが、実行にははるかにコストがかかる。
一方、モデルカスケードは、自然言語生成タスクにおけるLLMの精度を高めつつ、計算資源の保存に有効であることが証明されている。
セットで最小のモデルで出力を生成し、事前定義された品質基準を満たしていない場合にのみ、より大きなモデルをクエリする。
しかし、この戦略はコード補完タスクでは使われていない。主な理由は、コード補完の質を評価することは、関数的正しさに大きく依存する自然言語を評価することとは大きく異なるためである。
この問題に対処するため、各モデルがそれぞれのソリューションに対して一連のテストケースを生成し実行させ、その結果をカスケードしきい値として使用することを提案する。
モデルカスケード戦略は,1つのモデルで出力を生成するよりも計算コストを削減できるが,精度は向上することを示す。
また、予算に基づいて、各モデルが生成すべきソリューションの数、テストケース、テストラインの最適な組み合わせを決定するためのヒューリスティックスも導入します。
投機的復号法と比較すると,提案手法はブラックボックスモデルで動作し,コスト-精度のトレードオフが同じであるが,サーバの予算に基づいて,はるかに多くの選択肢を提供する。
LLMコード生成のコスト-精度トレードオフをモデルカスケードで最適化するための最初の取り組みである。
関連論文リスト
- Reward-Guided Speculative Decoding for Efficient LLM Reasoning [80.55186052123196]
Reward-Guided Speculative Decoding (RSD)は,大規模言語モデル(LLM)における推論の効率向上を目的とした新しいフレームワークである。
RSDは、厳密な偏りを強制する既存の投機的復号法とは対照的に、制御されたバイアスをハイリワード出力の優先順位付けに取り入れている。
RSDは,対象モデルのみでの復号化に対して,高い効率向上を実現し,並列復号法よりも高い精度を実現している。
論文 参考訳(メタデータ) (2025-01-31T17:19:57Z) - Reqo: A Robust and Explainable Query Optimization Cost Model [2.184775414778289]
GRU(Gated Recurrent Units)によって集約された双方向グラフニューラルネットワーク(Bi-GNN)に基づくツリーモデルアーキテクチャを提案する。
我々は,確率的MLを用いて,コスト見積の不確実性を効果的に定量化する,新しい学習とランクのコストモデルを実装した。
さらに,学習型コストモデルに特化して設計された最初の説明可能性手法を提案する。
論文 参考訳(メタデータ) (2025-01-29T04:48:51Z) - A hybrid framework for effective and efficient machine unlearning [12.499101994047862]
マシン・アンラーニング(MU)は、既に訓練済みのモデルパラメータから取り消されたサンプルのインプリントを取り除くために提案されている。
我々は、その上で、全体的な成功を達成するために、新しいハイブリッド戦略を提示する。
論文 参考訳(メタデータ) (2024-12-19T03:59:26Z) - Computation-Aware Gaussian Processes: Model Selection And Linear-Time Inference [55.150117654242706]
我々は、1.8万のデータポイントでトレーニングされた計算対応GPのモデル選択が、1つのGPU上で数時間以内に可能であることを示す。
この研究の結果、ガウス過程は、不確実性を定量化する能力を著しく妥協することなく、大規模なデータセットで訓練することができる。
論文 参考訳(メタデータ) (2024-11-01T21:11:48Z) - Towards Stable Machine Learning Model Retraining via Slowly Varying Sequences [6.067007470552307]
そこで本研究では,リトレーニングを繰り返して安定なモデル列を見つけるためのモデルに依存しないフレームワークを提案する。
最適モデルの復元が保証される混合整数最適化の定式化を開発する。
平均的に、予測力の2%の低下は、安定性の30%の改善につながることが判明した。
論文 参考訳(メタデータ) (2024-03-28T22:45:38Z) - Precision-Recall Divergence Optimization for Generative Modeling with
GANs and Normalizing Flows [54.050498411883495]
本研究では,ジェネレーティブ・アドバイサル・ネットワークや正規化フローなどの生成モデルのための新しいトレーニング手法を開発した。
指定された精度-リコールトレードオフを達成することは、textitPR-divergencesと呼ぶ家族からのユニークな$f$-divergenceを最小化することを意味する。
当社のアプローチは,ImageNetなどのデータセットでテストした場合の精度とリコールの両面で,BigGANのような既存の最先端モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-05-30T10:07:17Z) - Modeling the Second Player in Distributionally Robust Optimization [90.25995710696425]
我々は、最悪のケース分布を特徴付けるために神経生成モデルを使うことを議論する。
このアプローチは多くの実装と最適化の課題をもたらします。
提案されたアプローチは、同等のベースラインよりも堅牢なモデルを生み出す。
論文 参考訳(メタデータ) (2021-03-18T14:26:26Z) - AutoSimulate: (Quickly) Learning Synthetic Data Generation [70.82315853981838]
目的の新たな微分可能近似に基づく最適な合成データ生成法を提案する。
提案手法は,学習データ生成の高速化(最大50Times$)と,実世界のテストデータセットの精度向上(+8.7%$)を実現している。
論文 参考訳(メタデータ) (2020-08-16T11:36:11Z) - The Right Tool for the Job: Matching Model and Instance Complexities [62.95183777679024]
NLPモデルが大きくなればなるほど、訓練されたモデルを実行するには、金銭的・環境的なコストを発生させる重要な計算資源が必要である。
我々は、推論中、早期(かつ高速)の"exit"を可能にする文脈表現微調整の修正を提案する。
3つのテキスト分類データセットと2つの自然言語推論ベンチマークの2つのタスクで、5つの異なるデータセットに対して提案した修正を検証した。
論文 参考訳(メタデータ) (2020-04-16T04:28:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。