Fugu-MT 論文翻訳(概要): When Language Model Meets Private Library

論文の概要: When Language Model Meets Private Library

arxiv url: http://arxiv.org/abs/2210.17236v1
Date: Mon, 31 Oct 2022 11:42:06 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-01 18:47:03.178473
Title: When Language Model Meets Private Library
Title（参考訳）: 言語モデルがプライベートライブラリと出会うとき
Authors: Daoguang Zan, Bei Chen, Zeqi Lin, Bei Guan, Yongji Wang, Jian-Guang Lou
Abstract要約: 実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
参考スコア（独自算出の注目度）: 25.610036042971043
License: http://creativecommons.org/licenses/by/4.0/
Abstract: With the rapid development of pre-training techniques, a number of language models have been pre-trained on large-scale code corpora and perform well in code generation. In this paper, we investigate how to equip pre-trained language models with the ability of code generation for private libraries. In practice, it is common for programmers to write code using private libraries. However, this is a challenge for language models since they have never seen private APIs during training. Motivated by the fact that private libraries usually come with elaborate API documentation, we propose a novel framework with two modules: the APIRetriever finds useful APIs, and then the APICoder generates code using these APIs. For APIRetriever, we present a dense retrieval system and also design a friendly interaction to involve uses. For APICoder, we can directly use off-the-shelf language models, or continually pre-train the base model on a code corpus containing API information. Both modules are trained with data from public libraries and can be generalized to private ones. Furthermore, we craft three benchmarks for private libraries, named TorchDataEval, MonkeyEval, and BeatNumEval. Experimental results demonstrate the impressive performance of our framework.
Abstract（参考訳）: 事前学習技術の急速な発展に伴い、多数の言語モデルが大規模コードコーパスで事前訓練され、コード生成でよく機能している。本稿では,プライベートライブラリのコード生成機能を備えた事前学習型言語モデルの構築方法について検討する。実際、プログラマはプライベートライブラリを使ってコードを書くのが一般的です。しかし、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとってこれは課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。 APIRetrieverでは,高密度検索システムとユーザとの親和性のあるインタラクションを設計する。 APICoderでは、既製の言語モデルを直接使用したり、API情報を含むコードコーパスでベースモデルを継続的に事前トレーニングしたりできます。どちらのモジュールもパブリックライブラリのデータを使ってトレーニングされ、プライベートライブラリに一般化することができる。さらに、プライベートライブラリ向けにTorchDataEval、MonkeyEval、BeatNumEvalという3つのベンチマークを作成しました。実験結果は,このフレームワークの印象的な性能を示す。

関連論文リスト

ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文参考訳（メタデータ） (2024-02-19T10:33:41Z)
Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文参考訳（メタデータ） (2023-09-14T15:46:41Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。 BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文参考訳（メタデータ） (2023-05-10T16:40:52Z)
DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文参考訳（メタデータ） (2022-07-13T06:47:51Z)
CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation [46.45445767488915]
ライブラリ指向コード生成のモデルをトレーニングするために,未実装のコードコーパスを活用する方法を示す。 PandasEvalとNumpyEvalという2つのベンチマークを作成し、ライブラリ指向のコード生成を評価します。
論文参考訳（メタデータ） (2022-06-14T14:44:34Z)
A Systematic Evaluation of Large Language Models of Code [88.34057460577957]
コードの大規模な言語モデル(LM)は、最近、コードを完成させ、自然言語記述からコードを合成する大きな可能性を示しています。現在の最先端のコードLMは公開されておらず、モデルやデータ設計の決定について多くの疑問が残されている。 Codexはオープンソースではありませんが、既存のオープンソースモデルはいくつかのプログラミング言語でクローズな結果が得られることが分かりました。 GPT-2アーキテクチャに基づいた2.7Bパラメータを持つ新しいモデルPolyCoderをリリースし、12のプログラミング言語を1台のマシンで249GBのコードでトレーニングした。
論文参考訳（メタデータ） (2022-02-26T15:53:55Z)
Code Generation for Unknown Libraries via Reading API Documentations [10.122354606820416]
未知のライブラリのコード生成を、追加のトレーニングなしで行うという課題について検討する。自然言語の意図に基づいて,APIドキュメントから関連コードシグネチャを抽出できるモデルを実装した。
論文参考訳（メタデータ） (2022-02-16T00:36:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。