論文の概要: When Language Model Meets Private Library
- arxiv url: http://arxiv.org/abs/2210.17236v1
- Date: Mon, 31 Oct 2022 11:42:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 18:47:03.178473
- Title: When Language Model Meets Private Library
- Title(参考訳): 言語モデルがプライベートライブラリと出会うとき
- Authors: Daoguang Zan, Bei Chen, Zeqi Lin, Bei Guan, Yongji Wang, Jian-Guang
Lou
- Abstract要約: 実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。
これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
- 参考スコア(独自算出の注目度): 25.610036042971043
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of pre-training techniques, a number of language
models have been pre-trained on large-scale code corpora and perform well in
code generation. In this paper, we investigate how to equip pre-trained
language models with the ability of code generation for private libraries. In
practice, it is common for programmers to write code using private libraries.
However, this is a challenge for language models since they have never seen
private APIs during training. Motivated by the fact that private libraries
usually come with elaborate API documentation, we propose a novel framework
with two modules: the APIRetriever finds useful APIs, and then the APICoder
generates code using these APIs. For APIRetriever, we present a dense retrieval
system and also design a friendly interaction to involve uses. For APICoder, we
can directly use off-the-shelf language models, or continually pre-train the
base model on a code corpus containing API information. Both modules are
trained with data from public libraries and can be generalized to private ones.
Furthermore, we craft three benchmarks for private libraries, named
TorchDataEval, MonkeyEval, and BeatNumEval. Experimental results demonstrate
the impressive performance of our framework.
- Abstract(参考訳): 事前学習技術の急速な発展に伴い、多数の言語モデルが大規模コードコーパスで事前訓練され、コード生成でよく機能している。
本稿では,プライベートライブラリのコード生成機能を備えた事前学習型言語モデルの構築方法について検討する。
実際、プログラマはプライベートライブラリを使ってコードを書くのが一般的です。
しかし、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとってこれは課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
APIRetrieverでは,高密度検索システムとユーザとの親和性のあるインタラクションを設計する。
APICoderでは、既製の言語モデルを直接使用したり、API情報を含むコードコーパスでベースモデルを継続的に事前トレーニングしたりできます。
どちらのモジュールもパブリックライブラリのデータを使ってトレーニングされ、プライベートライブラリに一般化することができる。
さらに、プライベートライブラリ向けにTorchDataEval、MonkeyEval、BeatNumEvalという3つのベンチマークを作成しました。
実験結果は,このフレームワークの印象的な性能を示す。
関連論文リスト
- A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API
Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。
最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文 参考訳(メタデータ) (2023-09-14T15:46:41Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - CERT: Continual Pre-Training on Sketches for Library-Oriented Code
Generation [46.45445767488915]
ライブラリ指向コード生成のモデルをトレーニングするために,未実装のコードコーパスを活用する方法を示す。
PandasEvalとNumpyEvalという2つのベンチマークを作成し、ライブラリ指向のコード生成を評価します。
論文 参考訳(メタデータ) (2022-06-14T14:44:34Z) - A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。
現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。
Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。
GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文 参考訳(メタデータ) (2022-02-26T15:53:55Z) - Code Generation for Unknown Libraries via Reading API Documentations [10.122354606820416]
未知のライブラリのコード生成を、追加のトレーニングなしで行うという課題について検討する。
自然言語の意図に基づいて,APIドキュメントから関連コードシグネチャを抽出できるモデルを実装した。
論文 参考訳(メタデータ) (2022-02-16T00:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。