論文の概要: API Pack: A Massive Multi-Programming Language Dataset for API Call Generation
- arxiv url: http://arxiv.org/abs/2402.09615v5
- Date: Wed, 29 Jan 2025 00:34:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:33.700638
- Title: API Pack: A Massive Multi-Programming Language Dataset for API Call Generation
- Title(参考訳): API Pack: APIコール生成のための大規模マルチプログラミング言語データセット
- Authors: Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda,
- Abstract要約: API Packは、100万以上の命令API呼び出しを含む巨大なマルチプログラミング言語データセットである。
API Packの微調整により、完全に新しいAPI呼び出しのためのコード生成において、オープンソースモデルはGPT-3.5とGPT-4を上回ります。
- 参考スコア(独自算出の注目度): 30.466726273695144
- License:
- Abstract: We introduce API Pack, a massive multi-programming language dataset containing over one million instruction-API calls for improving the API call generation capabilities of large language models. Our evaluation highlights three key findings: First, fine-tuning on API Pack enables open-source models to outperform GPT-3.5 and GPT-4 in generating code for entirely new API calls. We show this by fine-tuning CodeLlama-13B on 20,000 Python instances from API Pack. Second, fine-tuning on a large dataset in one language, combined with smaller datasets from others, improves API generation accuracy across multiple languages. Third, we confirm the benefits of larger datasets for API generalization, as increasing fine-tuning data to one million instances enhances generalization to new APIs. To support further research, we open-source the API Pack dataset, trained model, and code at https://github.com/zguo0525/API-Pack.
- Abstract(参考訳): 大規模言語モデルのAPIコール生成機能を改善するために,100万以上の命令APIコールを含む,大規模なマルチプログラミング言語データセットであるAPI Packを紹介する。
まず、API Packの微調整により、完全に新しいAPI呼び出しのコードを生成する際に、オープンソースのモデルの方がGPT-3.5とGPT-4より優れています。
API Packから2万のPythonインスタンス上でCodeLlama-13Bを微調整することでこれを示す。
第二に、ひとつの言語で大規模なデータセットを微調整し、他の言語からの小さなデータセットと組み合わせることで、複数の言語にわたるAPI生成精度が向上する。
第3に,微調整データを100万インスタンスに増やすことで,新たなAPIへの一般化が促進されるため,より大きなデータセットによるAPIの一般化のメリットを確認します。
さらなる研究を支援するため、私たちは、API Packデータセット、トレーニングされたモデル、コードをhttps://github.com/zguo0525/API-Packでオープンソース化しました。
関連論文リスト
- A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:52:44Z) - APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである
APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。
推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文 参考訳(メタデータ) (2024-01-29T02:35:42Z) - Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API
Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。
最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文 参考訳(メタデータ) (2023-09-14T15:46:41Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Do All Languages Cost the Same? Tokenization in the Era of Commercial
Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。
しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。
我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文 参考訳(メタデータ) (2023-05-23T05:46:45Z) - When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。
これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:42:06Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Compositional Generalization for Natural Language Interfaces to Web APIs [26.851998759793453]
本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。
このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。
NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
論文 参考訳(メタデータ) (2021-12-09T20:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。