論文の概要: API Pack: A Massive Multilingual Dataset for API Call Generation
- arxiv url: http://arxiv.org/abs/2402.09615v1
- Date: Wed, 14 Feb 2024 23:09:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-16 17:26:55.743954
- Title: API Pack: A Massive Multilingual Dataset for API Call Generation
- Title(参考訳): API Pack: APIコール生成のための多言語データセット
- Authors: Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda
- Abstract要約: API Packは100万以上の命令APIコールペアを備えた多言語データセットである。
たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、それぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。
言語間のAPIコール生成は、言語毎の広範なデータを必要としない。
- 参考スコア(独自算出の注目度): 32.283025183438895
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce API Pack, a multilingual dataset featuring over one million
instruction-API call pairs aimed at advancing large language models' API call
generation capabilities. Through experiments, we demonstrate API Pack's
efficacy in enhancing models for this specialized task while maintaining their
overall proficiency at general coding. Fine-tuning CodeLlama-13B on just 20,000
Python instances yields over 10% and 5% higher accuracy than GPT-3.5 and GPT-4
respectively in generating unseen API calls. Scaling to 100k examples improves
generalization to new APIs not seen during training. In addition, cross-lingual
API call generation is achieved without needing extensive data per language.
The dataset, fine-tuned models, and overall code base are publicly available at
https://github.com/anonymous_url.
- Abstract(参考訳): 大規模言語モデルのapi呼び出し生成機能向上を目的とした,100万以上の命令apiコールペアを備えた多言語データセットであるapi packを紹介する。
実験を通じて,汎用コーディングにおける全体的な習熟度を維持しつつ,この特化タスクのモデル強化におけるAPI Packの有効性を示す。
たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、未確認のAPI呼び出しを生成する際にそれぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。
100kの例へのスケーリングは、トレーニング中に見えない新しいAPIへの一般化を改善する。
さらに、言語ごとの広範なデータを必要としない言語間APIコール生成も実現している。
データセット、微調整されたモデル、全体的なコードベースはhttps://github.com/anonymous_url.orgで公開されている。
関連論文リスト
- A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。
大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文 参考訳(メタデータ) (2024-09-20T03:12:35Z) - WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。
大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文 参考訳(メタデータ) (2024-07-10T15:52:44Z) - APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである
APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。
推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文 参考訳(メタデータ) (2024-01-29T02:35:42Z) - Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API
Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。
最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文 参考訳(メタデータ) (2023-09-14T15:46:41Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - Do All Languages Cost the Same? Tokenization in the Era of Commercial
Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。
しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。
我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文 参考訳(メタデータ) (2023-05-23T05:46:45Z) - When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。
これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。
APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文 参考訳(メタデータ) (2022-10-31T11:42:06Z) - Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。
解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。
実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文 参考訳(メタデータ) (2022-10-06T12:55:17Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z) - Compositional Generalization for Natural Language Interfaces to Web APIs [26.851998759793453]
本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。
このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。
NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
論文 参考訳(メタデータ) (2021-12-09T20:49:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。