論文の概要: Improving Code Autocompletion with Transfer Learning
- arxiv url: http://arxiv.org/abs/2105.05991v1
- Date: Wed, 12 May 2021 22:22:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-15 01:25:12.974032
- Title: Improving Code Autocompletion with Transfer Learning
- Title(参考訳): トランスファーラーニングによるコード自動補完の改善
- Authors: Wen Zhou, Seohyun Kim, Vijayaraghavan Murali, Gareth Ari Aye
- Abstract要約: 本稿では,非ide,非オートコンプリート,異言語サンプルコード列に対する事前学習型オートコンプリートモデルの有効性について検討する。
これらの教師なし事前トレーニングは、非常に小さな微調整データセットで50%以上、50kラベル付き例で10%以上、モデルの精度を向上させる。
- 参考スコア(独自算出の注目度): 6.012228844543004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Software language models have achieved promising results predicting code
completion usages, and several industry studies have described successful IDE
integrations. Recently, accuracy in autocompletion prediction improved 12.8%
from training on a real-world dataset collected from programmers' IDE activity.
But what if limited examples of IDE autocompletion in the target programming
language are available for model training? In this paper, we investigate the
efficacy of pretraining autocompletion models on non-IDE, non-autocompletion,
and different-language example code sequences. We find that these unsupervised
pretrainings improve model accuracy by over 50% on very small fine-tuning
datasets and over 10% on 50k labeled examples. We confirm the real-world impact
of these pretrainings in an online setting through A/B testing on thousands of
IDE autocompletion users, finding that pretraining is responsible for increases
of up to 6.63% autocompletion usage.
- Abstract(参考訳): ソフトウェア言語モデルは、コード補完の使用を予測する有望な結果を達成した。
近年,プログラマのIDEアクティビティから収集した実世界のデータセットのトレーニングから,自動補完予測の精度が12.8%向上した。
しかし、ターゲットプログラミング言語におけるIDE自動補完の限られた例がモデルトレーニングに利用できるとしたらどうだろう?
本稿では,非ide,非オートコンプリート,異言語サンプルコード列に対する事前学習型オートコンプリートモデルの有効性について検討する。
これらの教師なし事前トレーニングは、非常に小さな微調整データセットで50%以上、50kラベル付き例で10%以上、モデルの精度を向上させる。
私たちは、A/Bテストを通じて、何千ものIDEオートコンプリートユーザに対して、これらの事前トレーニングの実際の影響を確認します。
関連論文リスト
- What Do Learning Dynamics Reveal About Generalization in LLM Reasoning? [83.83230167222852]
モデルの一般化動作は,事前記憶列車の精度と呼ばれるトレーニング指標によって効果的に特徴づけられることがわかった。
モデルの学習行動と一般化を結びつけることで、トレーニング戦略に目標とする改善を導くことができる。
論文 参考訳(メタデータ) (2024-11-12T09:52:40Z) - Attribute-to-Delete: Machine Unlearning via Datamodel Matching [65.13151619119782]
機械学習 -- 事前訓練された機械学習モデルで、小さな"ターゲットセット"トレーニングデータを効率的に削除する -- は、最近関心を集めている。
最近の研究では、機械学習技術はこのような困難な環境では耐えられないことが示されている。
論文 参考訳(メタデータ) (2024-10-30T17:20:10Z) - Input-Gen: Guided Generation of Stateful Inputs for Testing, Tuning, and Training [1.660242118349614]
入力は、コードのように、大規模に自動生成できることを示します。
当社のアプローチでは,ComPileデータセットモジュールの90%に対して,初期メモリ状態を含む有効な入力を生成することができる。
論文 参考訳(メタデータ) (2024-06-13T06:09:16Z) - A Transformer-Based Approach for Smart Invocation of Automatic Code Completion [14.34818742116731]
コード補完ツールの起動時期を予測する機械学習モデルを開発した。
クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集します。
以上の結果から,我々の小型変圧器モデルがベースラインを大きく上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-05-23T16:19:32Z) - Language Models for Code Completion: A Practical Evaluation [13.174471984950857]
本研究は,実世界のコードを完成させる際の3つの公開言語モデルの定量的および定性的な評価を提供する。
1200以上のユーザから1年以上にわたって,実際の自動補完使用データを収集しました。
66.3%の障害はモデルの制限によるものであり、24.4%は開発コンテキストにおける不適切なモデル使用によるものであり、9.3%は開発者が過剰に記述した有効な要求であることがわかった。
論文 参考訳(メタデータ) (2024-02-25T20:43:55Z) - Teaching Large Language Models to Self-Debug [62.424077000154945]
大規模言語モデル(LLM)は、コード生成において素晴らしいパフォーマンスを達成した。
本稿では,大規模言語モデルで予測プログラムを数発のデモでデバッグする自己デバッグを提案する。
論文 参考訳(メタデータ) (2023-04-11T10:43:43Z) - ASPEST: Bridging the Gap Between Active Learning and Selective
Prediction [56.001808843574395]
選択予測は、不確実な場合の予測を棄却する信頼性のあるモデルを学ぶことを目的としている。
アクティブラーニングは、最も有意義な例を問うことで、ラベリングの全体、すなわち人間の依存度を下げることを目的としている。
本研究では,移動対象領域からより情報のあるサンプルを検索することを目的とした,新たな学習パラダイムである能動的選択予測を導入する。
論文 参考訳(メタデータ) (2023-04-07T23:51:07Z) - Iterative Loop Learning Combining Self-Training and Active Learning for
Domain Adaptive Semantic Segmentation [1.827510863075184]
この問題を緩和するために、自己学習とアクティブラーニングが提案されている。
本稿では,自己学習とアクティブラーニングを組み合わせた反復ループ学習手法を提案する。
論文 参考訳(メタデータ) (2023-01-31T01:31:43Z) - ALBench: A Framework for Evaluating Active Learning in Object Detection [102.81795062493536]
本稿では、オブジェクト検出におけるアクティブラーニングを評価するために、ALBenchという名前のアクティブラーニングベンチマークフレームワークをコントリビュートする。
自動深層モデルトレーニングシステム上で開発されたこのALBenchフレームワークは、使いやすく、さまざまなアクティブな学習アルゴリズムと互換性があり、同じトレーニングおよびテストプロトコルを保証する。
論文 参考訳(メタデータ) (2022-07-27T07:46:23Z) - Selecting Informative Contexts Improves Language Model Finetuning [66.26521454263343]
本稿では,情報ゲインフィルタと呼ぶ汎用的な微調整手法を提案する。
微調整中、二次学習者は情報的例を選択し、非情報的例をスキップする。
提案手法は,データセット,微調整タスク,言語モデルアーキテクチャ間で一貫した改善がなされていることを示す。
論文 参考訳(メタデータ) (2020-05-01T02:01:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。