論文の概要: A Transformer-Based Approach for Smart Invocation of Automatic Code Completion
- arxiv url: http://arxiv.org/abs/2405.14753v1
- Date: Thu, 23 May 2024 16:19:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 13:56:49.021173
- Title: A Transformer-Based Approach for Smart Invocation of Automatic Code Completion
- Title(参考訳): 自動コード補完のスマートな実行のためのトランスフォーマーに基づくアプローチ
- Authors: Aral de Moor, Arie van Deursen, Maliheh Izadi,
- Abstract要約: コード補完ツールの起動時期を予測する機械学習モデルを開発した。
クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集します。
以上の結果から,我々の小型変圧器モデルがベースラインを大きく上回っていることが示唆された。
- 参考スコア(独自算出の注目度): 14.34818742116731
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based language models are highly effective for code completion, with much research dedicated to enhancing the content of these completions. Despite their effectiveness, these models come with high operational costs and can be intrusive, especially when they suggest too often and interrupt developers who are concentrating on their work. Current research largely overlooks how these models interact with developers in practice and neglects to address when a developer should receive completion suggestions. To tackle this issue, we developed a machine learning model that can accurately predict when to invoke a code completion tool given the code context and available telemetry data. To do so, we collect a dataset of 200k developer interactions with our cross-IDE code completion plugin and train several invocation filtering models. Our results indicate that our small-scale transformer model significantly outperforms the baseline while maintaining low enough latency. We further explore the search space for integrating additional telemetry data into a pre-trained transformer directly and obtain promising results. To further demonstrate our approach's practical potential, we deployed the model in an online environment with 34 developers and provided real-world insights based on 74k actual invocations.
- Abstract(参考訳): トランスフォーマーベースの言語モデルは、コード補完に非常に効果的であり、これらの補完の内容の強化に多くの研究が費やされている。
有効性にも拘わらず、これらのモデルには高い運用コストが伴い、特に頻繁な提案や作業に集中している開発者を中断する場合は、侵入的になる可能性がある。
現在の研究は、これらのモデルが実際に開発者とどのように相互作用しているかを概ね見落としており、開発者が補完提案を受けるべきときの対処を怠っている。
この問題に対処するために、コードコンテキストと利用可能なテレメトリデータからコード補完ツールをいつ呼び出すべきかを正確に予測できる機械学習モデルを開発した。
そのため、クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集し、いくつかの呼び出しフィルタリングモデルをトレーニングします。
以上の結果から,我々の小型変圧器モデルは低レイテンシを保ちながらベースラインを著しく上回っていることが示唆された。
さらに,事前学習した変圧器に付加的なテレメトリデータを統合するための探索空間を探索し,有望な結果を得る。
このアプローチの実践的可能性をさらに実証するため、34人の開発者によるオンライン環境にモデルをデプロイし、74kの実際の呼び出しに基づいた実世界の洞察を提供しました。
関連論文リスト
- Improving FIM Code Completions via Context & Curriculum Based Learning [6.779631208983878]
コードリポジトリからハード・トゥ・コンプリート・パターンを抽出し,カリキュラムのデータセットを作成する。
意味解析ツールと静的解析ツールを用いて文脈例を生成する。
オンラインA/Bテストによるアプローチを検証するとともに,CAR(Completion Acceptance Rate)とCPR(Completion Persistence)の具体的な改善を実証する。
論文 参考訳(メタデータ) (2024-12-21T11:30:54Z) - AgentTrek: Agent Trajectory Synthesis via Guiding Replay with Web Tutorials [53.376263056033046]
Webチュートリアルを利用して高品質なGUIエージェントトラジェクトリを生成するスケーラブルなデータ合成パイプラインを提案する。
提案手法では,インターネットからチュートリアル的なテキストを自動的に収集し,ステップバイステップでタスク目標に変換し,視覚言語モデルエージェントを用いる。
VLMに基づく評価器は、生成された軌道の正確性を保証する。
論文 参考訳(メタデータ) (2024-12-12T18:59:27Z) - DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production [5.030384831047144]
本稿では、実際の開発者インタラクションを忠実に模倣する合成トレーニングデータを生成する自動化ツールであるDialogAgentを紹介する。
このツールは手動データ生成への依存を著しく低減し、従来の方法に比べて効率を4.8倍に向上させる。
論文 参考訳(メタデータ) (2024-12-11T03:31:36Z) - Data-Juicer Sandbox: A Feedback-Driven Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。
このサンドボックスは、フィードバック駆動の実験プラットフォームを提供し、コスト効率とデータとモデルの両方のガイド付き洗練を可能にする。
論文 参考訳(メタデータ) (2024-07-16T14:40:07Z) - Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。
私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。
我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文 参考訳(メタデータ) (2024-04-22T15:54:53Z) - A Machine Learning Approach Towards SKILL Code Autocompletion [6.586356094533907]
本研究は,ハードウェア設計技術者の生産性向上に向けて,SKILLコードオートコンプリートにトランスフォーマーを適用した最初の事例である。
ラベル付きデータとラベル付きデータの両方で高品質なSKILLデータセットを作成するための新しい手法を提案する。
提案手法を用いて訓練されたモデルは,人間の判断スコアとBLEUスコアにおいて,ベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-12-04T14:29:28Z) - Enriching Source Code with Contextual Data for Code Completion Models:
An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。
コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文 参考訳(メタデータ) (2023-04-24T17:09:14Z) - Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。
提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文 参考訳(メタデータ) (2022-06-28T18:42:27Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。
本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。
提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文 参考訳(メタデータ) (2021-03-08T16:03:09Z) - Sequence Model Design for Code Completion in the Modern IDE [3.4824234779710452]
本稿では,すべての有効なキーワードとスコープ内識別子を列挙する静的解析能力と,それらの上に確率分布を配置する言語モデルの能力を組み合わせた,トップk次トークンの予測手法を提案する。
我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。
論文 参考訳(メタデータ) (2020-04-10T22:40:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。