Fugu-MT 論文翻訳(概要): Private-Library-Oriented Code Generation with Large Language Models

論文の概要: Private-Library-Oriented Code Generation with Large Language Models

arxiv url: http://arxiv.org/abs/2307.15370v1
Date: Fri, 28 Jul 2023 07:43:13 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-23 16:00:40.283440
Title: Private-Library-Oriented Code Generation with Large Language Models
Title（参考訳）: 大規模言語モデルを用いたプライベートライブラリ指向コード生成
Authors: Daoguang Zan, Bei Chen, Yongshun Gong, Junzhi Cao, Fengji Zhang, Bingchao Wu, Bei Guan, Yilong Yin, Yongji Wang
Abstract要約: 本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
参考スコア（独自算出の注目度）: 52.73999698194344
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs), such as Codex and GPT-4, have recently showcased their remarkable code generation abilities, facilitating a significant boost in coding efficiency. This paper will delve into utilizing LLMs for code generation in private libraries, as they are widely employed in everyday programming. Despite their remarkable capabilities, generating such private APIs poses a formidable conundrum for LLMs, as they inherently lack exposure to these private libraries during pre-training. To address this challenge, we propose a novel framework that emulates the process of programmers writing private code. This framework comprises two modules: APIFinder first retrieves potentially useful APIs from API documentation; and APICoder then leverages these retrieved APIs to generate private code. Specifically, APIFinder employs vector retrieval techniques and allows user involvement in the retrieval process. For APICoder, it can directly utilize off-the-shelf code generation models. To further cultivate explicit proficiency in invoking APIs from prompts, we continuously pre-train a reinforced version of APICoder, named CodeGenAPI. Our goal is to train the above two modules on vast public libraries, enabling generalization to private ones. Meanwhile, we create four private library benchmarks, including TorchDataEval, TorchDataComplexEval, MonkeyEval, and BeatNumEval, and meticulously handcraft test cases for each benchmark to support comprehensive evaluations. Numerous experiments on the four benchmarks consistently affirm the effectiveness of our approach. Furthermore, deeper analysis is also conducted to glean additional insights.
Abstract（参考訳）: codexやgpt-4といった大規模言語モデル(llm)は最近、その素晴らしいコード生成能力を披露し、コーディング効率を大幅に向上させた。本稿では,LLMを日常的なプログラミングに広く採用されているプライベートライブラリのコード生成に活用することを検討する。それらの優れた機能にもかかわらず、そのようなプライベートAPIの生成は、事前トレーニング中にこれらのプライベートライブラリへの露出が本質的に欠如しているため、LLMにとって深刻な混乱をもたらす。この課題に対処するために、プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 APIFinderはまずAPIドキュメントから潜在的に有用なAPIを検索し、APICoderは取得したAPIを利用してプライベートコードを生成する。具体的には、APIFinderはベクトル検索技術を採用し、検索プロセスにユーザの関与を可能にする。 APICoderでは、既製のコード生成モデルを直接利用できる。プロンプトからAPIを呼び出す際の明確な習熟度をさらに育むために、私たちは、CodeGenAPIという名前の強化バージョンのAPICoderを継続的に事前訓練しました。私たちの目標は、上記の2つのモジュールを巨大なパブリックライブラリでトレーニングし、プライベートライブラリへの一般化を可能にすることです。一方、torchdataeval、torchdatacomplexeval、 monkeyeval、beatnumevalの4つのプライベートライブラリベンチマークを作成し、包括的な評価をサポートするために各ベンチマークで細心の注意を払って手作りのテストケースを作成しました。 4つのベンチマークに関する多くの実験は、我々のアプローチの有効性を一貫して裏付けている。さらに、さらなる洞察を得るためにより深い分析を行う。

関連論文リスト

When LLMs Meet API Documentation: Can Retrieval Augmentation Aid Code Generation Just as It Helps Developers? [10.204379646375182]
Retrieval-augmented Generation (RAG) は、学習前の知識を超えて、大規模言語モデルの能力(LLM)を拡大する能力を示している。検索と生成のための新たな知識として,あまり一般的でないAPIライブラリのドキュメンテーションを使用することの有効性に影響を与える要因について検討する。
論文参考訳（メタデータ） (2025-03-19T14:08:47Z)
Your Fix Is My Exploit: Enabling Comprehensive DL Library API Fuzzing with Large Language Models [49.214291813478695]
AIアプリケーションで広く使用されているディープラーニング(DL)ライブラリは、オーバーフローやバッファフリーエラーなどの脆弱性を含むことが多い。従来のファジィングはDLライブラリの複雑さとAPIの多様性に悩まされている。 DLライブラリのためのLLM駆動ファジィ手法であるDFUZZを提案する。
論文参考訳（メタデータ） (2025-01-08T07:07:22Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [70.72097493954067]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文参考訳（メタデータ） (2024-11-07T17:47:25Z)
A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。 API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文参考訳（メタデータ） (2024-09-23T17:22:09Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
VersiCode: Towards Version-controllable Code Generation [58.82709231906735]
大規模言語モデル(LLM)は、コード生成において大きな進歩を遂げていますが、既存の研究は、ソフトウェア開発の動的な性質を説明できません。バージョン別コード補完(VSCC)とバージョン別コードマイグレーション(VACM)の2つの新しいタスクを提案する。 VersiCodeについて広範な評価を行い、バージョン管理可能なコード生成が確かに重要な課題であることを示した。
論文参考訳（メタデータ） (2024-06-11T16:15:06Z)
Are Human Rules Necessary? Generating Reusable APIs with CoT Reasoning and In-Context Learning [14.351476383642016]
そこで我々は,Stack OverflowコードスニペットのAPIzationを自動的に実行する,Code2APIという新しいアプローチを提案する。 Code2APIは、追加のモデルトレーニングや手作業のルールを必要としない。他の外部ツールに頼ることなく、パーソナルコンピュータに簡単にデプロイできる。
論文参考訳（メタデータ） (2024-05-06T14:22:17Z)
Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文参考訳（メタデータ） (2024-03-04T05:57:50Z)
Compositional API Recommendation for Library-Oriented Code Generation [23.355509276291198]
我々は、粗粒度要求のためのAPIを推奨するために、"diide-and-conquer"戦略を採用するCAPIRを提案する。 RAPID(Documentationに基づく推奨API)とLOCG(Library-Oriented Code Generation)の2つの挑戦的なベンチマークを提示する。これらのベンチマーク実験の結果,既存のベースラインと比較してCAPIRの有効性が示された。
論文参考訳（メタデータ） (2024-02-29T18:27:27Z)
Evaluating Embedding APIs for Information Retrieval [51.24236853841468]
ドメインの一般化と多言語検索における既存のセマンティック埋め込みAPIの機能を評価する。 BM25の結果をAPIを使って再ランク付けすることは、予算に優しいアプローチであり、英語でもっとも効果的である。非英語検索では、再ランク付けは結果を改善するが、BM25のハイブリッドモデルは高いコストで機能する。
論文参考訳（メタデータ） (2023-05-10T16:40:52Z)
When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文参考訳（メタデータ） (2022-10-31T11:42:06Z)
On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文参考訳（メタデータ） (2022-04-05T20:33:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。