Fugu-MT 論文翻訳(概要): API Pack: A Massive Multi-Programming Language Dataset for API Call Generation

論文の概要: API Pack: A Massive Multi-Programming Language Dataset for API Call Generation

arxiv url: http://arxiv.org/abs/2402.09615v3
Date: Fri, 31 May 2024 17:31:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-03 20:02:19.357467
Title: API Pack: A Massive Multi-Programming Language Dataset for API Call Generation
Title（参考訳）: API Pack: APIコール生成のための大規模マルチプログラミング言語データセット
Authors: Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda,
Abstract要約: API Packは、100万以上の命令APIコールペアを含む、大規模なマルチプログラミング言語データセットである。 API Packの微調整により、1つの言語で大量のデータと、他の言語からの少量のデータを活用することで、クロスプログラミング言語の一般化が可能になる。
参考スコア（独自算出の注目度）: 30.466726273695144
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce API Pack, a massive multi-programming language dataset containing more than 1 million instruction-API call pairs to improve the API call generation capabilities of large language models. By fine-tuning CodeLlama-13B on 20,000 Python instances from API Pack, we achieved around 10% and 5% higher accuracy compared to GPT-3.5 and GPT-4, respectively, in generating unseen API calls. Fine-tuning on API Pack enables cross-programming language generalization by leveraging a large amount of data in one language and small amounts of data from other languages. Scaling the training data to 1 million instances further improves the model's generalization to new APIs not encountered during training. We open-source the API Pack dataset, trained models, and associated source code at https://github.com/zguo0525/API-Pack to facilitate further research.
Abstract（参考訳）: 我々は,大規模言語モデルのAPIコール生成機能を改善するために,100万以上の命令-APIコールペアを含む大規模マルチプログラミング言語データセットであるAPI Packを紹介する。 API Packから2万のPythonインスタンス上でCodeLlama-13Bを微調整することで、GPT-3.5とGPT-4と比較して、それぞれ10%と5%の精度を実現しました。 API Packの微調整により、1つの言語で大量のデータと、他の言語からの少量のデータを活用することで、クロスプログラミング言語の一般化が可能になる。トレーニングデータを100万インスタンスにスケールアップすることで、トレーニング中に遭遇しない新しいAPIへのモデルの一般化がさらに向上する。 API Packデータセット、トレーニングされたモデル、および関連するソースコードをhttps://github.com/zguo0525/API-Packでオープンソース化し、さらなる調査を行っています。

関連論文リスト

APIRAT: Integrating Multi-source API Knowledge for Enhanced Code Translation with LLMs [6.522570957351905]
APIRATは、マルチソースAPI知識を統合する新しいコード翻訳手法である。 APIRATでは、APIシーケンス検索、APIシーケンスのバックトランスレーション、APIマッピングなど、API知識の拡張テクニックが3つ採用されている。実験の結果、APIRATは既存のLCMベースの手法を大幅に上回り、計算精度は4%から15.1%に向上した。
論文参考訳（メタデータ） (2025-04-21T04:24:49Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文参考訳（メタデータ） (2024-07-10T15:52:44Z)
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。 APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文参考訳（メタデータ） (2024-06-26T17:49:11Z)
APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文参考訳（メタデータ） (2024-01-29T02:35:42Z)
Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文参考訳（メタデータ） (2023-09-14T15:46:41Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文参考訳（メタデータ） (2023-05-23T05:46:45Z)
When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文参考訳（メタデータ） (2022-10-31T11:42:06Z)
Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文参考訳（メタデータ） (2022-10-06T12:55:17Z)
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.48276161473216]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (2022-09-18T01:52:16Z)
On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文参考訳（メタデータ） (2022-04-05T20:33:24Z)
Compositional Generalization for Natural Language Interfaces to Web APIs [26.851998759793453]
本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。 NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
論文参考訳（メタデータ） (2021-12-09T20:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。