Fugu-MT 論文翻訳(概要): A Transformer-Based Approach for Smart Invocation of Automatic Code Completion

論文の概要: A Transformer-Based Approach for Smart Invocation of Automatic Code Completion

arxiv url: http://arxiv.org/abs/2405.14753v1
Date: Thu, 23 May 2024 16:19:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-24 13:56:49.021173
Title: A Transformer-Based Approach for Smart Invocation of Automatic Code Completion
Title（参考訳）: 自動コード補完のスマートな実行のためのトランスフォーマーに基づくアプローチ
Authors: Aral de Moor, Arie van Deursen, Maliheh Izadi,
Abstract要約: コード補完ツールの起動時期を予測する機械学習モデルを開発した。クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集します。以上の結果から,我々の小型変圧器モデルがベースラインを大きく上回っていることが示唆された。
参考スコア（独自算出の注目度）: 14.34818742116731
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Transformer-based language models are highly effective for code completion, with much research dedicated to enhancing the content of these completions. Despite their effectiveness, these models come with high operational costs and can be intrusive, especially when they suggest too often and interrupt developers who are concentrating on their work. Current research largely overlooks how these models interact with developers in practice and neglects to address when a developer should receive completion suggestions. To tackle this issue, we developed a machine learning model that can accurately predict when to invoke a code completion tool given the code context and available telemetry data. To do so, we collect a dataset of 200k developer interactions with our cross-IDE code completion plugin and train several invocation filtering models. Our results indicate that our small-scale transformer model significantly outperforms the baseline while maintaining low enough latency. We further explore the search space for integrating additional telemetry data into a pre-trained transformer directly and obtain promising results. To further demonstrate our approach's practical potential, we deployed the model in an online environment with 34 developers and provided real-world insights based on 74k actual invocations.
Abstract（参考訳）: トランスフォーマーベースの言語モデルは、コード補完に非常に効果的であり、これらの補完の内容の強化に多くの研究が費やされている。有効性にも拘わらず、これらのモデルには高い運用コストが伴い、特に頻繁な提案や作業に集中している開発者を中断する場合は、侵入的になる可能性がある。現在の研究は、これらのモデルが実際に開発者とどのように相互作用しているかを概ね見落としており、開発者が補完提案を受けるべきときの対処を怠っている。この問題に対処するために、コードコンテキストと利用可能なテレメトリデータからコード補完ツールをいつ呼び出すべきかを正確に予測できる機械学習モデルを開発した。そのため、クロスIDEコード補完プラグインと200万の開発者インタラクションのデータセットを収集し、いくつかの呼び出しフィルタリングモデルをトレーニングします。以上の結果から,我々の小型変圧器モデルは低レイテンシを保ちながらベースラインを著しく上回っていることが示唆された。さらに,事前学習した変圧器に付加的なテレメトリデータを統合するための探索空間を探索し,有望な結果を得る。このアプローチの実践的可能性をさらに実証するため、34人の開発者によるオンライン環境にモデルをデプロイし、74kの実際の呼び出しに基づいた実世界の洞察を提供しました。

関連論文リスト

Data Scaling Laws for End-to-End Autonomous Driving [83.85463296830743]
16時間から8192時間に及ぶ内部駆動データセット上での簡易エンド・ツー・エンド駆動アーキテクチャの性能評価を行った。具体的には、目標の性能向上を達成するために、どの程度のトレーニングデータが必要かを調査する。
論文参考訳（メタデータ） (2025-04-06T03:23:48Z)
Learning to Solve and Verify: A Self-Play Framework for Code and Test Generation [69.62857948698436]
大規模言語モデル(LLM)の最近の進歩は、コーディングベンチマークのパフォーマンスを改善している。しかし、手軽に利用できる高品質なデータの枯渇により、改善は停滞している。本稿では,単一モデルのコードとテスト生成能力を共同で改善するセルフプレイ・ソルバ検証フレームワークであるSol-Verを提案する。
論文参考訳（メタデータ） (2025-02-20T18:32:19Z)
Improving FIM Code Completions via Context & Curriculum Based Learning [6.779631208983878]
コードリポジトリからハード・トゥ・コンプリート・パターンを抽出し,カリキュラムのデータセットを作成する。意味解析ツールと静的解析ツールを用いて文脈例を生成する。オンラインA/Bテストによるアプローチを検証するとともに,CAR(Completion Acceptance Rate)とCPR(Completion Persistence)の具体的な改善を実証する。
論文参考訳（メタデータ） (2024-12-21T11:30:54Z)
DialogAgent: An Auto-engagement Agent for Code Question Answering Data Production [5.030384831047144]
本稿では、実際の開発者インタラクションを忠実に模倣する合成トレーニングデータを生成する自動化ツールであるDialogAgentを紹介する。このツールは手動データ生成への依存を著しく低減し、従来の方法に比べて効率を4.8倍に向上させる。
論文参考訳（メタデータ） (2024-12-11T03:31:36Z)
Data-Juicer Sandbox: A Comprehensive Suite for Multimodal Data-Model Co-development [67.55944651679864]
統合データモデル共同開発に適した新しいサンドボックススイートを提案する。このサンドボックスは包括的な実験プラットフォームを提供し、データとモデルの両方の迅速なイテレーションと洞察駆動による改善を可能にする。また、徹底的なベンチマークから得られた実りある洞察を明らかにし、データ品質、多様性、モデル行動の間の重要な相互作用に光を当てています。
論文参考訳（メタデータ） (2024-07-16T14:40:07Z)
Does Your Neural Code Completion Model Use My Code? A Membership Inference Approach [66.51005288743153]
本稿では,現在のニューラルコード補完モデルの法的および倫理的問題について考察する。私たちは、もともと分類タスクのために作られたメンバシップ推論アプローチ(CodeMIと呼ばれる)を調整します。我々は,この適応型アプローチの有効性を,多種多様なニューラルコード補完モデルで評価した。
論文参考訳（メタデータ） (2024-04-22T15:54:53Z)
A Machine Learning Approach Towards SKILL Code Autocompletion [6.586356094533907]
本研究は,ハードウェア設計技術者の生産性向上に向けて,SKILLコードオートコンプリートにトランスフォーマーを適用した最初の事例である。ラベル付きデータとラベル付きデータの両方で高品質なSKILLデータセットを作成するための新しい手法を提案する。提案手法を用いて訓練されたモデルは,人間の判断スコアとBLEUスコアにおいて,ベースラインよりも優れていることを示す。
論文参考訳（メタデータ） (2023-12-04T14:29:28Z)
Learning Defect Prediction from Unrealistic Data [57.53586547895278]
事前訓練されたコードのモデルは、コード理解と生成タスクに人気がある。このようなモデルは大きい傾向があり、訓練データの総量を必要とする。人工的に注入されたバグのある関数など、はるかに大きくてもより現実的なデータセットを持つモデルをトレーニングすることが一般的になった。このようなデータで訓練されたモデルは、実際のプログラムでは性能が劣りながら、同様のデータでのみうまく機能する傾向にある。
論文参考訳（メタデータ） (2023-11-02T01:51:43Z)
Enriching Source Code with Contextual Data for Code Completion Models: An Empirical Study [4.438873396405334]
コンテクストデータを用いてコードを理解しやすくすることで、コード補完作業のための事前学習された言語モデルの性能が向上するかどうかを問う。コメントについては、マルチラインコメントの存在下でモデルの性能が向上していることが分かる。
論文参考訳（メタデータ） (2023-04-24T17:09:14Z)
Masked World Models for Visual Control [90.13638482124567]
視覚表現学習と動的学習を分離する視覚モデルに基づくRLフレームワークを提案する。提案手法は,様々な視覚ロボット作業における最先端性能を実現する。
論文参考訳（メタデータ） (2022-06-28T18:42:27Z)
Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文参考訳（メタデータ） (2021-06-14T11:42:46Z)
Injecting Knowledge in Data-driven Vehicle Trajectory Predictors [82.91398970736391]
車両軌道予測タスクは、一般的に知識駆動とデータ駆動の2つの視点から取り組まれている。本稿では,これら2つの視点を効果的に結合する「現実的残留ブロック」 (RRB) の学習を提案する。提案手法は,残留範囲を限定し,その不確実性を考慮した現実的な予測を行う。
論文参考訳（メタデータ） (2021-03-08T16:03:09Z)
Sequence Model Design for Code Completion in the Modern IDE [3.4824234779710452]
本稿では,すべての有効なキーワードとスコープ内識別子を列挙する静的解析能力と,それらの上に確率分布を配置する言語モデルの能力を組み合わせた,トップk次トークンの予測手法を提案する。我々のモデルは,文字レベルの入力表現とトークン出力を混合し,語彙外トークン(OOV)を有意に表現し,予測遅延を最小化する。
論文参考訳（メタデータ） (2020-04-10T22:40:49Z)
PHOTONAI -- A Python API for Rapid Machine Learning Model Development [2.414341608751139]
PHOTONAIは、機械学習モデル開発の簡素化と高速化を目的とした、ハイレベルなPython APIである。これは統一フレームワークとして機能し、ユーザーは異なるツールボックスからのアルゴリズムをカスタムのアルゴリズムシーケンスに簡単にアクセスし、組み合わせることができる。
論文参考訳（メタデータ） (2020-02-13T10:33:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。