論文の概要: Private-Library-Oriented Code Generation with Large Language Models
- arxiv url: http://arxiv.org/abs/2307.15370v1
- Date: Fri, 28 Jul 2023 07:43:13 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-23 16:00:40.283440
- Title: Private-Library-Oriented Code Generation with Large Language Models
- Title(参考訳): 大規模言語モデルを用いたプライベートライブラリ指向コード生成
- Authors: Daoguang Zan, Bei Chen, Yongshun Gong, Junzhi Cao, Fengji Zhang,
Bingchao Wu, Bei Guan, Yilong Yin, Yongji Wang
- Abstract要約: 本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
- 参考スコア(独自算出の注目度): 52.73999698194344
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs), such as Codex and GPT-4, have recently
showcased their remarkable code generation abilities, facilitating a
significant boost in coding efficiency. This paper will delve into utilizing
LLMs for code generation in private libraries, as they are widely employed in
everyday programming. Despite their remarkable capabilities, generating such
private APIs poses a formidable conundrum for LLMs, as they inherently lack
exposure to these private libraries during pre-training. To address this
challenge, we propose a novel framework that emulates the process of
programmers writing private code. This framework comprises two modules:
APIFinder first retrieves potentially useful APIs from API documentation; and
APICoder then leverages these retrieved APIs to generate private code.
Specifically, APIFinder employs vector retrieval techniques and allows user
involvement in the retrieval process. For APICoder, it can directly utilize
off-the-shelf code generation models. To further cultivate explicit proficiency
in invoking APIs from prompts, we continuously pre-train a reinforced version
of APICoder, named CodeGenAPI. Our goal is to train the above two modules on
vast public libraries, enabling generalization to private ones. Meanwhile, we
create four private library benchmarks, including TorchDataEval,
TorchDataComplexEval, MonkeyEval, and BeatNumEval, and meticulously handcraft
test cases for each benchmark to support comprehensive evaluations. Numerous
experiments on the four benchmarks consistently affirm the effectiveness of our
approach. Furthermore, deeper analysis is also conducted to glean additional
insights.
- Abstract(参考訳): codexやgpt-4といった大規模言語モデル(llm)は最近、その素晴らしいコード生成能力を披露し、コーディング効率を大幅に向上させた。
本稿では,LLMを日常的なプログラミングに広く採用されているプライベートライブラリのコード生成に活用することを検討する。
それらの優れた機能にもかかわらず、そのようなプライベートAPIの生成は、事前トレーニング中にこれらのプライベートライブラリへの露出が本質的に欠如しているため、LLMにとって深刻な混乱をもたらす。
この課題に対処するために、プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
APIFinderはまずAPIドキュメントから潜在的に有用なAPIを検索し、APICoderは取得したAPIを利用してプライベートコードを生成する。
具体的には、APIFinderはベクトル検索技術を採用し、検索プロセスにユーザの関与を可能にする。
APICoderでは、既製のコード生成モデルを直接利用できる。
プロンプトからAPIを呼び出す際の明確な習熟度をさらに育むために、私たちは、CodeGenAPIという名前の強化バージョンのAPICoderを継続的に事前訓練しました。
私たちの目標は、上記の2つのモジュールを巨大なパブリックライブラリでトレーニングし、プライベートライブラリへの一般化を可能にすることです。
一方、torchdataeval、torchdatacomplexeval、 monkeyeval、beatnumevalの4つのプライベートライブラリベンチマークを作成し、包括的な評価をサポートするために各ベンチマークで細心の注意を払って手作りのテストケースを作成しました。
4つのベンチマークに関する多くの実験は、我々のアプローチの有効性を一貫して裏付けている。
さらに、さらなる洞察を得るためにより深い分析を行う。
関連論文リスト
- Differentially Private Synthetic Data via Foundation Model APIs 2: Text [57.64059482750924]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Compositional API Recommendation for Library-Oriented Code Generation [23.355509276291198]
我々は、粗粒度要求のためのAPIを推奨するために、"diide-and-conquer"戦略を採用するCAPIRを提案する。
RAPID(Documentationに基づく推奨API)とLOCG(Library-Oriented Code Generation)の2つの挑戦的なベンチマークを提示する。
これらのベンチマーク実験の結果,既存のベースラインと比較してCAPIRの有効性が示された。
論文 参考訳(メタデータ) (2024-02-29T18:27:27Z) - De-Hallucinator: Iterative Grounding for LLM-Based Code Completion [21.417049430066616]
公開ソースコードのデータセットに基づいてトレーニングされた大言語モデル(LLM)は、コード補完において新たな最先端の方法を確立した。
本稿では, LLMに基づくコード補完手法であるDe-Hallucinatorを提案する。
De-Hallucinatorは、カーソル前のコードだけでモデルをクエリするのに比べて、4つの最先端のLLMで予測されたコードを改善する。
論文 参考訳(メタデータ) (2024-01-03T12:09:43Z) - ML-Bench: Large Language Models Leverage Open-source Libraries for
Machine Learning Tasks [75.12666425091702]
大規模な言語モデルは、コード生成ベンチマークで有望なパフォーマンスを示している。
この研究は、LLMがオープンソースのライブラリを使用して機械学習タスクを終了する、新たな評価設定を提案することを目的としている。
論文 参考訳(メタデータ) (2023-11-16T12:03:21Z) - Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。
BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。
非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文 参考訳(メタデータ) (2023-05-10T16:40:52Z) - When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。
これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:42:06Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - DocCoder: Generating Code by Retrieving and Reading Docs [87.88474546826913]
コードマニュアルとドキュメントを明示的に活用するアプローチであるDocCoderを紹介します。
我々のアプローチは一般的に、どんなプログラミング言語にも適用でき、基礎となるニューラルモデルとは無関係です。
論文 参考訳(メタデータ) (2022-07-13T06:47:51Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。