論文の概要: ReACC: A Retrieval-Augmented Code Completion Framework
- arxiv url: http://arxiv.org/abs/2203.07722v1
- Date: Tue, 15 Mar 2022 08:25:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-16 13:03:36.105251
- Title: ReACC: A Retrieval-Augmented Code Completion Framework
- Title(参考訳): ReACC: 検索可能なコード補完フレームワーク
- Authors: Shuai Lu, Nan Duan, Hojae Han, Daya Guo, Seung-won Hwang, Alexey
Svyatkovskiy
- Abstract要約: 本稿では,語彙のコピーと類似したセマンティクスを持つコード参照の両方を検索により活用する検索拡張コード補完フレームワークを提案する。
我々は,Python および Java プログラミング言語のコード補完タスクにおけるアプローチを評価し,CodeXGLUE ベンチマークで最先端のパフォーマンスを実現する。
- 参考スコア(独自算出の注目度): 53.49707123661763
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code completion, which aims to predict the following code token(s) according
to the code context, can improve the productivity of software development.
Recent work has proved that statistical language modeling with transformers can
greatly improve the performance in the code completion task via learning from
large-scale source code datasets. However, current approaches focus only on
code context within the file or project, i.e. internal context. Our distinction
is utilizing "external" context, inspired by human behaviors of copying from
the related code snippets when writing code. Specifically, we propose a
retrieval-augmented code completion framework, leveraging both lexical copying
and referring to code with similar semantics by retrieval. We adopt a
stage-wise training approach that combines a source code retriever and an
auto-regressive language model for programming language. We evaluate our
approach in the code completion task in Python and Java programming languages,
achieving a state-of-the-art performance on CodeXGLUE benchmark.
- Abstract(参考訳): コード補完は、コードコンテキストに従って次のコードトークンを予測することを目的としており、ソフトウェア開発の生産性を向上させることができる。
最近の研究は、大規模なソースコードデータセットから学習することで、トランスフォーマによる統計的言語モデリングがコード補完タスクのパフォーマンスを大幅に改善できることを証明している。
しかし、現在のアプローチはファイルやプロジェクト内のコードコンテキスト、すなわち内部コンテキストのみに焦点を当てている。
我々の区別は、コードを記述する際に関連するコードスニペットからコピーする人間の振る舞いにインスパイアされた"外部"コンテキストを利用します。
具体的には,レキシカルコピーと類似のセマンティクスによるコード参照の両方を活用する検索拡張コード補完フレームワークを提案する。
我々は、ソースコード検索とプログラミング言語の自動回帰言語モデルを組み合わせた段階的な訓練手法を採用する。
我々はPythonおよびJavaプログラミング言語のコード補完タスクにおけるアプローチを評価し、CodeXGLUEベンチマークで最先端のパフォーマンスを達成する。
関連論文リスト
- Building A Coding Assistant via the Retrieval-Augmented Language Model [24.654428111628242]
本研究では,コーディング中の人間の知識探索行動を模倣してコードアシスタントを構築するための検索補助言語モデル(CONAN)を提案する。
コード構造対応検索器(CONAN-R)とデュアルビューコード表現に基づく検索拡張生成モデル(CONAN-G)で構成される。
論文 参考訳(メタデータ) (2024-10-21T17:34:39Z) - LongCoder: A Long-Range Pre-trained Language Model for Code Completion [56.813974784131624]
LongCoderは自己アテンションにスライディングウィンドウ機構を採用し、グローバルアクセス可能なトークンを2種類導入している。
ブリッジトークンは入力シーケンス全体を通して挿入され、ローカル情報を集約し、グローバルな相互作用を促進する。
メモリトークンは、後で呼び出され、記憶する必要がある重要なステートメントをハイライトするために含まれます。
論文 参考訳(メタデータ) (2023-06-26T17:59:24Z) - Code Execution with Pre-trained Language Models [88.04688617516827]
コードインテリジェンスのトレーニング済みモデルのほとんどは実行トレースを無視しており、ソースコードと構文構造のみに依存している。
我々は,大規模かつ現実的なPythonデータセットとコード実行タスクを作成するために,突然変異に基づくデータ拡張手法を開発した。
次に、コード実行事前学習とカリキュラム学習を活用して意味理解を強化するトランスフォーマーモデルであるCodeExecutorを提案する。
論文 参考訳(メタデータ) (2023-05-08T10:00:05Z) - RepoCoder: Repository-Level Code Completion Through Iterative Retrieval
and Generation [96.75695811963242]
RepoCoderはリポジトリレベルのコード補完プロセスを合理化するフレームワークである。
類似性ベースのレトリバーと、事前訓練されたコード言語モデルが組み込まれている。
バニラ検索で拡張されたコード補完アプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2023-03-22T13:54:46Z) - Soft-Labeled Contrastive Pre-training for Function-level Code
Representation [127.71430696347174]
textbfSoft-labeled contrastive pre-training framework with two positive sample construction method。
大規模コードコーパスにおけるコード間の関連性を考慮すると、ソフトラベル付きコントラスト付き事前学習は、きめ細かいソフトラベルを得ることができる。
SCodeRは、7つのデータセットで4つのコード関連タスクに対して、最先端のパフォーマンスを新たに達成する。
論文 参考訳(メタデータ) (2022-10-18T05:17:37Z) - CodeRetriever: Unimodal and Bimodal Contrastive Learning [128.06072658302165]
関数レベルのコードセマンティック表現を訓練するために,一様および二様のコントラスト学習を組み合わせたCodeRetrieverモデルを提案する。
ノンモーダルなコントラスト学習のために、文書と関数名に基づいてポジティブなコードペアを構築するためのセマンティックガイド付き手法を設計する。
バイモーダルなコントラスト学習では、コードのドキュメンテーションとインラインコメントを活用して、テキストコードペアを構築します。
論文 参考訳(メタデータ) (2022-01-26T10:54:30Z) - Leveraging Code Generation to Improve Code Retrieval and Summarization
via Dual Learning [18.354352985591305]
コード要約は、ソースコードスニペットが与えられた短い自然言語記述を生成し、コード検索は、自然言語クエリが与えられた関連するソースコードを取得する。
最近の研究は、これらの2つのタスクを組み合わせてパフォーマンスを改善している。
本稿では,新たなコード生成タスクを導入することによって,2つのタスクのエンド・ツー・エンド・モデルを提案する。
論文 参考訳(メタデータ) (2020-02-24T12:26:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。