論文の概要: To See is Not to Master: Teaching LLMs to Use Private Libraries for Code Generation
- arxiv url: http://arxiv.org/abs/2603.15159v1
- Date: Mon, 16 Mar 2026 11:53:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.191148
- Title: To See is Not to Master: Teaching LLMs to Use Private Libraries for Code Generation
- Title(参考訳): 習得すべきでないこと:LLMにコード生成にプライベートライブラリを使うように教える
- Authors: Yitong Zhang, Chengze Li, Ruize Chen, Guowei Yang, Xiaoran Jia, Yijie Ren, Jia Li,
- Abstract要約: PriCoderは、大規模言語モデルに自動合成データを通じてプライベートライブラリAPIを呼び出すように教えるアプローチである。
PriCoderはプライベートライブラリ指向のコード生成を大幅に改善し、多くの設定でpass@1で20%以上のゲインを得る。
- 参考スコア(独自算出の注目度): 10.540200819270359
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have shown strong potential for code generation, yet they remain limited in private-library-oriented code generation, where the goal is to generate code using APIs from private libraries. Existing approaches mainly rely on retrieving private-library API documentation and injecting relevant knowledge into the context at inference time. However, our study shows that this is insufficient: even given accurate required knowledge, LLMs still struggle to invoke private-library APIs effectively. To address this limitation, we propose PriCoder, an approach that teaches LLMs to invoke private-library APIs through automatically synthesized data. Specifically, PriCoder models private-library data synthesis as the construction of a graph, and alternates between two graph operators: (1) Progressive Graph Evolution, which improves data diversity by progressively synthesizing more diverse training samples from basic ones, and (2) Multidimensional Graph Pruning, which improves data quality through a rigorous filtering pipeline. To support rigorous evaluation, we construct two new benchmarks based on recently released libraries that are unfamiliar to the tested models. Experiments on three mainstream LLMs show that PriCoder substantially improves private-library-oriented code generation, yielding gains of over 20% in pass@1 in many settings, while causing negligible impact on general code generation capability. Our code and benchmarks are publicly available at https://github.com/contact-eniacode/PriCoder.
- Abstract(参考訳): 大きな言語モデル(LLM)は、コード生成の可能性を強く示していますが、プライベートライブラリ指向のコード生成には制限があります。
既存のアプローチは主に、プライベートライブラリAPIドキュメントの取得と、推論時にコンテキストに関連知識を注入することに依存しています。
しかし、我々の研究は、これは不十分であることを示している。正確な必要な知識を考慮に入れたとしても、LLMは依然として、プライベートライブラリAPIを効果的に呼び出すのに苦労している。
この制限に対処するために、自動で合成されたデータを通じてプライベートライブラリAPIを呼び出すことをLLMに教えるアプローチであるPriCoderを提案する。
具体的には、PriCoderは、グラフの構成としてプライベートライブラリデータ合成をモデル化し、2つのグラフ演算子を交互に置き換える。(1) 基本からより多様なトレーニングサンプルを段階的に合成することでデータの多様性を向上させるプログレッシブグラフ進化、(2) 厳密なフィルタリングパイプラインを通じてデータ品質を改善する多次元グラフ解析。
厳密な評価を支援するため、テストされたモデルに不慣れな最近リリースされたライブラリに基づいた2つの新しいベンチマークを構築した。
3つの主要なLCMでの実験では、PriCoderはプライベートライブラリ指向のコード生成を大幅に改善し、多くの設定でpass@1で20%以上向上し、一般的なコード生成能力に無視できない影響を与えている。
私たちのコードとベンチマークはhttps://github.com/contact-eniacode/PriCoder.comで公開されています。
関連論文リスト
- IFEvalCode: Controlled Code Generation [69.28317223249358]
本稿では,Code LLMの命令追従能力を改善するために,前方および後方制約生成を提案する。
IFEvalCodeは、7つのプログラミング言語の1.6Kテストサンプルからなる多言語ベンチマークである。
論文 参考訳(メタデータ) (2025-07-30T08:08:48Z) - OpenCoder: The Open Cookbook for Top-Tier Code Large Language Models [76.59316249991657]
コードのための大規模言語モデル(LLM)は、コード生成、推論タスク、エージェントシステムなど、さまざまな領域で必須になっている。
オープンアクセスのコード LLM はプロプライエタリなモデルの性能レベルに近づきつつあるが、高品質なコード LLM は依然として限られている。
トップクラスのコードLLMであるOpenCoderは、主要なモデルに匹敵するパフォーマンスを達成するだけでなく、研究コミュニティの"オープンクックブック"としても機能します。
論文 参考訳(メタデータ) (2024-11-07T17:47:25Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。
これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:42:06Z) - CERT: Continual Pre-Training on Sketches for Library-Oriented Code
Generation [46.45445767488915]
ライブラリ指向コード生成のモデルをトレーニングするために,未実装のコードコーパスを活用する方法を示す。
PandasEvalとNumpyEvalという2つのベンチマークを作成し、ライブラリ指向のコード生成を評価します。
論文 参考訳(メタデータ) (2022-06-14T14:44:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。