論文の概要: When Neural Code Completion Models Size up the Situation: Attaining
Cheaper and Faster Completion through Dynamic Model Inference
- arxiv url: http://arxiv.org/abs/2401.09964v1
- Date: Thu, 18 Jan 2024 13:26:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-19 16:33:30.451069
- Title: When Neural Code Completion Models Size up the Situation: Attaining
Cheaper and Faster Completion through Dynamic Model Inference
- Title(参考訳): ニューラルコード補完モデルが状況を拡大すると:動的モデル推論による安価で高速な補完を実現する
- Authors: Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Li Li
- Abstract要約: 本稿では,コード補完モデルに適した動的推論手法を提案する。
モデル内の16層のうち1.7層を平均スキップすることができ、11.2%のスピードアップとROUGE-Lの限界1.1%の削減に繋がった。
- 参考スコア(独自算出の注目度): 11.704110756342212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging recent advancements in large language models, modern neural code
completion models have demonstrated the capability to generate highly accurate
code suggestions. However, their massive size poses challenges in terms of
computational costs and environmental impact, hindering their widespread
adoption in practical scenarios. Dynamic inference emerges as a promising
solution, as it allocates minimal computation during inference while
maintaining the model's performance. In this research, we explore dynamic
inference within the context of code completion. Initially, we conducted an
empirical investigation on GPT-2, focusing on the inference capabilities of
intermediate layers for code completion. We found that 54.4% of tokens can be
accurately generated using just the first layer, signifying significant
computational savings potential. Moreover, despite using all layers, the model
still fails to predict 14.5% of tokens correctly, and the subsequent
completions continued from them are rarely considered helpful, with only a 4.2%
Acceptance Rate. These findings motivate our exploration of dynamic inference
in code completion and inspire us to enhance it with a decision-making
mechanism that stops the generation of incorrect code. We thus propose a novel
dynamic inference method specifically tailored for code completion models. This
method aims not only to produce correct predictions with largely reduced
computation but also to prevent incorrect predictions proactively. Our
extensive evaluation shows that it can averagely skip 1.7 layers out of 16
layers in the models, leading to an 11.2% speedup with only a marginal 1.1%
reduction in ROUGE-L.
- Abstract(参考訳): 大規模言語モデルの最近の進歩を活用して、現代のニューラルコード補完モデルは、高精度なコード提案を生成する能力を示した。
しかし、その巨大なサイズは計算コストと環境への影響の点で問題を引き起こし、現実的なシナリオで広く採用されることを妨げる。
モデルのパフォーマンスを維持しながら推論中に最小の計算を割り当てるので、動的推論は有望なソリューションとして現れる。
本研究では,コード補完の文脈における動的推論について検討する。
まず,コード補完のための中間層の推論機能に着目し,GPT-2に関する実証的研究を行った。
その結果,第1層だけで54.4%のトークンを正確に生成できることが分かった。
さらに、全ての層を使用しても、モデルはまだ14.5%のトークンを正しく予測できず、それに続く完了は4.2%の受け入れ率でしか役に立たないと見なされない。
これらの発見は、コード補完における動的推論の探索を動機付け、誤ったコードの生成を阻止する意思決定メカニズムによってそれを強化するきっかけを与えてくれます。
そこで本稿では,コード補完モデルに特化した新しい動的推論手法を提案する。
本手法は,計算量を大幅に削減した正確な予測を生成するだけでなく,誤予測を積極的に防止することを目的とする。
我々の広範な評価によると、モデル内の16層のうち1.7層を平均スキップでき、11.2%のスピードアップとなり、ROUGE-Lはわずか1.1%削減された。
関連論文リスト
- Dynamic layer selection in decoder-only transformers [21.18795712840146]
自然言語生成のための2つの一般的な動的推論手法を実証的に検討する。
トレーニング済みのデコーダのみのモデルでは,層スキップによる層除去が著しく堅牢であることがわかった。
また、シーケンス毎の動的計算割り当ては、大きな効率向上を約束することを示す。
論文 参考訳(メタデータ) (2024-10-26T00:44:11Z) - FT2Ra: A Fine-Tuning-Inspired Approach to Retrieval-Augmented Code Completion [24.964973946366335]
我々は,真の微調整を模倣することを目的とした新しい検索手法FT2Raを開発した。
FT2RaはUniXcoderの最良のベースライン方式に比べて精度が4.29%向上している。
論文 参考訳(メタデータ) (2024-04-02T01:42:15Z) - Predicting Emergent Abilities with Infinite Resolution Evaluation [85.89911520190711]
本稿では,デコードフェーズにおける大規模なサンプリングを通じて,理論的に無限の分解能を持つ評価戦略であるPassUntilを紹介する。
トレーニング開始前に0.05%の偏差でコード生成における2.4Bモデルの性能を予測する。
スケーリング曲線が標準スケーリング法則関数に適合できないような,高速化された出現の種を同定する。
論文 参考訳(メタデータ) (2023-10-05T02:35:00Z) - Towards Efficient Fine-tuning of Pre-trained Code Models: An
Experimental Study and Beyond [52.656743602538825]
微調整された事前訓練されたコードモデルは、大きな計算コストを発生させる。
我々は、レイヤーワイドで事前訓練された表現と、微調整中に符号化されたコード知識に何が起こるのかを実験的に検討する。
本稿では,レイヤ凍結により事前学習したコードモデルを効率的に微調整するTellyを提案する。
論文 参考訳(メタデータ) (2023-04-11T13:34:13Z) - Controlled Sparsity via Constrained Optimization or: How I Learned to
Stop Tuning Penalties and Love Constraints [81.46143788046892]
スパースラーニングを行う際には,スパーシティのレベルを制御するタスクに焦点をあてる。
スパーシリティを誘発する罰則に基づく既存の方法は、ペナルティファクターの高価な試行錯誤チューニングを含む。
本稿では,学習目標と所望のスパーシリティ目標によって,エンドツーエンドでスペーシフィケーションをガイドする制約付き定式化を提案する。
論文 参考訳(メタデータ) (2022-08-08T21:24:20Z) - Confident Adaptive Language Modeling [95.45272377648773]
CALMは、入力と生成時間ごとに異なる量の計算を動的に割り当てるフレームワークである。
ハイパフォーマンスを確実に維持しつつ、計算能力、潜在的スピードアップを最大3ドルまで削減する上で、我々のフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-07-14T17:00:19Z) - Adversarial Robustness Assessment of NeuroEvolution Approaches [1.237556184089774]
CIFAR-10画像分類タスクにおける2つのNeuroEvolutionアプローチにより得られたモデルのロバスト性を評価する。
以上の結果から,進化したモデルが反復的手法で攻撃されると,その精度は通常0に低下するか0に近づきます。
これらの技法のいくつかは、元の入力に付加された摂動を悪化させ、頑丈さを損なう可能性がある。
論文 参考訳(メタデータ) (2022-07-12T10:40:19Z) - Toward Less Hidden Cost of Code Completion with Acceptance and Ranking
Models [12.736207952790618]
我々は、複数のモデルの結果を組み合わせて、各モデルの利点と相反する欠陥を引き出すアンサンブルフレームワークを開発する。
本稿では,コードコンテキストと異なるコード補完モデルからデータを収集するための符号化シミュレーションを行う。
本稿では,キーストローク保存の利点と完了リスト閲覧の隠れコストを考慮した新しいコード補完評価指標であるBeefit-Cost Ratio(BCR)を提案する。
論文 参考訳(メタデータ) (2021-06-26T03:02:49Z) - Effective Model Sparsification by Scheduled Grow-and-Prune Methods [73.03533268740605]
本稿では,高密度モデルの事前学習を伴わない新規なGrow-and-prune(GaP)手法を提案する。
実験により、そのようなモデルは様々なタスクにおいて80%の間隔で高度に最適化された高密度モデルの品質に適合または打ち勝つことができることが示された。
論文 参考訳(メタデータ) (2021-06-18T01:03:13Z) - Confidence Adaptive Anytime Pixel-Level Recognition [86.75784498879354]
任意の時間推論は、いつでも停止される可能性のある予測の進行を行うモデルを必要とする。
我々は,任意のピクセルレベルの認識に対して,最初の統一とエンドツーエンドのモデルアプローチを提案する。
論文 参考訳(メタデータ) (2021-04-01T20:01:57Z) - Accelerating Deep Learning Inference via Freezing [8.521443408415868]
本稿では,各中間層に近似キャッシュを導入するフリーズ推論を提案する。
これにより、ResNet-18上で実行されるCIFAR-10リクエストの91.58%に対して、有効レイヤの数を半分に削減できる可能性がある。
論文 参考訳(メタデータ) (2020-02-07T07:03:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。