論文の概要: Learning to Prevent Profitless Neural Code Completion
- arxiv url: http://arxiv.org/abs/2209.05948v1
- Date: Tue, 13 Sep 2022 12:43:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:10:50.921397
- Title: Learning to Prevent Profitless Neural Code Completion
- Title(参考訳): 無益なニューラルコード補完を防ぐための学習
- Authors: Zhensu Sun, Xiaoning Du, Fu Song, Shangwen Wang, Mingze Ni, Li Li
- Abstract要約: 2,631人の参加者による調査によると、Copilotから表示されたコード補完の約70%は、開発者に受け入れられていない。
大型モデルの高コストを考えると、これは計算資源とエネルギーの膨大な無駄である。
そこで本研究では,LCMに送信することなく,完了品質を予知することで,低リターンプロンプトを停止させる早期のリジェクション機構を提案する。
- 参考スコア(独自算出の注目度): 8.99695131692619
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Currently, large pre-trained models are widely applied in neural code
completion systems, such as Github Copilot, aiXcoder, and TabNine. Though large
models significantly outperform their smaller counterparts, a survey with 2,631
participants reveals that around 70\% displayed code completions from Copilot
are not accepted by developers. Being reviewed but not accepted, these
completions bring a threat to productivity. Besides, considering the high cost
of the large models, it is a huge waste of computing resources and energy,
which severely goes against the sustainable development principle of AI
technologies. Additionally, in code completion systems, the completion requests
are automatically and actively issued to the models as developers type out,
which significantly aggravates the workload. However, to the best of our
knowledge, such waste has never been realized, not to mention effectively
addressed, in the context of neural code completion. Hence, preventing such
profitless code completions from happening in a cost-friendly way is of urgent
need. To fill this gap, we first investigate the prompts of these completions
and find four observable prompt patterns, which demonstrate the feasibility of
identifying such prompts based on prompts themselves. Motivated by this
finding, we propose an early-rejection mechanism to turn down low-return
prompts by foretelling the completion qualities without sending them to the
LCM. Further, we propose a lightweight Transformer-based estimator to
demonstrate the feasibility of the mechanism. The experimental results show
that the estimator rejects low-return prompts with a promising accuracy of
83.2%.
- Abstract(参考訳): 現在、大規模な事前トレーニングされたモデルは、Github Copilot、aiXcoder、TabNineなどのニューラルコード補完システムに広く適用されている。
2,631人の参加者による調査によると、copilotから表示されたコードコンプリートは約70\%が開発者に受け入れられていない。
レビューされるが受け入れられないこれらの完成は生産性に脅威をもたらす。
さらに、大規模モデルの高コストを考慮すると、AI技術の持続可能な開発原理に強く反対する、計算資源とエネルギーの膨大な無駄である。
さらに、コード補完システムでは、開発者が入力するモデルに対して、完了要求が自動的にアクティブに発行されるため、ワークロードが著しく悪化する。
しかしながら、私たちの知る限りでは、そのような無駄は、ニューラルネットワークの完了という文脈において、効果的に対処されたというわけではない。
したがって、このような無益なコード補完をコストフレンドリーな方法で防止することは、緊急に必要である。
このギャップを埋めるために、まずこれらの完了のプロンプトを調査し、4つの観察可能なプロンプトパターンを見つけます。
そこで本研究では,LCMに送信することなく,完成品質を予見することで,低リターンプロンプトを停止させる早期リジェクション機構を提案する。
さらに,本機構の実現可能性を示す軽量なトランスフォーマーベース推定器を提案する。
実験の結果、推定器は低リターンプロンプトを83.2%の精度で拒絶することが示された。
関連論文リスト
- When Neural Code Completion Models Size up the Situation: Attaining
Cheaper and Faster Completion through Dynamic Model Inference [11.704110756342212]
本稿では,コード補完モデルに適した動的推論手法を提案する。
モデル内の16層のうち1.7層を平均スキップすることができ、11.2%のスピードアップとROUGE-Lの限界1.1%の削減に繋がった。
論文 参考訳(メタデータ) (2024-01-18T13:26:53Z) - Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。
このようなモデルは大きい傾向があり、訓練データの総量を必要とする。
人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。
このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文 参考訳(メタデータ) (2023-11-02T01:51:43Z) - Uncovering the Hidden Cost of Model Compression [49.937417635812025]
視覚プロンプティング (VP) はコンピュータビジョンにおいて重要な伝達学習手法として登場した。
モデル間隔は視覚的プロンプトベース転送の性能に悪影響を及ぼす。
以上の結果から,疎度が下流視覚刺激モデルの校正に及ぼす影響が示唆された。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Greener yet Powerful: Taming Large Code Generation Models with
Quantization [47.734976584580224]
事前訓練された大規模なディープラーニングモデルは、コード生成の境界を大幅に押し下げた。
その大きな力にもかかわらず、膨大な数のモデルパラメータが、通常のソフトウェア開発環境でそれらを適用することに重大な脅威をもたらします。
モデル圧縮はこれらの課題に対処するための有望なアプローチである。
論文 参考訳(メタデータ) (2023-03-09T16:25:51Z) - Tokenization Consistency Matters for Generative Models on Extractive NLP
Tasks [54.306234256074255]
生成モデルの訓練において一般的に無視されるトークン化の不整合の問題を特定する。
この問題は、入力と出力が無矛盾にトークン化されると、これらのタスクの抽出特性を損なう。
一貫性のあるトークン化では、ドメイン内のデータセットとドメイン外のデータセットの両方で、モデルのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2022-12-19T23:33:21Z) - CODA-Prompt: COntinual Decomposed Attention-based Prompting for
Rehearsal-Free Continual Learning [30.676509834338884]
コンピュータビジョンモデルは、継続的なトレーニングデータから新しい概念を学ぶ際に、破滅的な忘れという現象に悩まされる。
データリハーサルに代わるアプローチを提案する。
我々は,従来のSOTA法であるDualPromptを,平均的な最終精度で最大4.5%上回っていることを示す。
論文 参考訳(メタデータ) (2022-11-23T18:57:11Z) - IRJIT: A simple, online, information retrieval approach for just-in-time
software defect prediction [11.016730029019524]
ジャスト・イン・タイムのソフトウェア欠陥予測は、コミットチェックイン時にそれらを特定することによって、ソフトウェアに欠陥を導入するのを防ぐ。
現在の欠陥予測アプローチは、変更メトリクスなどの手作業による機能に依存しており、マシンラーニングやディープラーニングモデルのトレーニングにコストがかかる。
我々は,ソースコード上の情報検索を利用して,過去のバグやクリーンなコミットと類似性に基づいて,新しいコミットをバグやクリーンとしてラベル付けするIRJITという手法を提案する。
論文 参考訳(メタデータ) (2022-10-05T17:54:53Z) - Discrete Key-Value Bottleneck [95.61236311369821]
ディープニューラルネットワークは、データストリームがi.d.d.であり、ラベル付きデータが豊富である分類タスクでうまく機能する。
この課題に対処した強力なアプローチの1つは、手軽に利用可能なデータ量に対する大規模なエンコーダの事前トレーニングと、タスク固有のチューニングである。
しかし、新しいタスクを考えると、多くの重みを微調整する必要があるため、エンコーダの重みを更新することは困難であり、その結果、以前のタスクに関する情報を忘れてしまう。
この問題に対処するモデルアーキテクチャを提案し,個別かつ学習可能なキー値符号のペアを含む離散的ボトルネックの上に構築する。
論文 参考訳(メタデータ) (2022-07-22T17:52:30Z) - Toward Less Hidden Cost of Code Completion with Acceptance and Ranking
Models [12.736207952790618]
我々は、複数のモデルの結果を組み合わせて、各モデルの利点と相反する欠陥を引き出すアンサンブルフレームワークを開発する。
本稿では,コードコンテキストと異なるコード補完モデルからデータを収集するための符号化シミュレーションを行う。
本稿では,キーストローク保存の利点と完了リスト閲覧の隠れコストを考慮した新しいコード補完評価指標であるBeefit-Cost Ratio(BCR)を提案する。
論文 参考訳(メタデータ) (2021-06-26T03:02:49Z) - RethinkCWS: Is Chinese Word Segmentation a Solved Task? [81.11161697133095]
中国語の単語(CWS)システムの性能は、ディープニューラルネットワークの急速な発展とともに、徐々に高水準に達している。
本稿では、私たちが達成した事柄の株式を取得し、CWSタスクに残されている事柄を再考する。
論文 参考訳(メタデータ) (2020-11-13T11:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。