Fugu-MT 論文翻訳(概要): API Pack: A Massive Multilingual Dataset for API Call Generation

論文の概要: API Pack: A Massive Multilingual Dataset for API Call Generation

arxiv url: http://arxiv.org/abs/2402.09615v1
Date: Wed, 14 Feb 2024 23:09:15 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-16 17:26:55.743954
Title: API Pack: A Massive Multilingual Dataset for API Call Generation
Title（参考訳）: API Pack: APIコール生成のための多言語データセット
Authors: Zhen Guo, Adriana Meza Soria, Wei Sun, Yikang Shen, Rameswar Panda
Abstract要約: API Packは100万以上の命令APIコールペアを備えた多言語データセットである。たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、それぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。言語間のAPIコール生成は、言語毎の広範なデータを必要としない。
参考スコア（独自算出の注目度）: 32.283025183438895
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce API Pack, a multilingual dataset featuring over one million instruction-API call pairs aimed at advancing large language models' API call generation capabilities. Through experiments, we demonstrate API Pack's efficacy in enhancing models for this specialized task while maintaining their overall proficiency at general coding. Fine-tuning CodeLlama-13B on just 20,000 Python instances yields over 10% and 5% higher accuracy than GPT-3.5 and GPT-4 respectively in generating unseen API calls. Scaling to 100k examples improves generalization to new APIs not seen during training. In addition, cross-lingual API call generation is achieved without needing extensive data per language. The dataset, fine-tuned models, and overall code base are publicly available at https://github.com/anonymous_url.
Abstract（参考訳）: 大規模言語モデルのapi呼び出し生成機能向上を目的とした,100万以上の命令apiコールペアを備えた多言語データセットであるapi packを紹介する。実験を通じて,汎用コーディングにおける全体的な習熟度を維持しつつ,この特化タスクのモデル強化におけるAPI Packの有効性を示す。たった20,000のPythonインスタンス上で微調整されたCodeLlama-13Bは、未確認のAPI呼び出しを生成する際にそれぞれGPT-3.5とGPT-4よりも10%以上精度が5%高い。 100kの例へのスケーリングは、トレーニング中に見えない新しいAPIへの一般化を改善する。さらに、言語ごとの広範なデータを必要としない言語間APIコール生成も実現している。データセット、微調整されたモデル、全体的なコードベースはhttps://github.com/anonymous_url.orgで公開されている。

関連論文リスト

APIRAT: Integrating Multi-source API Knowledge for Enhanced Code Translation with LLMs [6.522570957351905]
APIRATは、マルチソースAPI知識を統合する新しいコード翻訳手法である。 APIRATでは、APIシーケンス検索、APIシーケンスのバックトランスレーション、APIマッピングなど、API知識の拡張テクニックが3つ採用されている。実験の結果、APIRATは既存のLCMベースの手法を大幅に上回り、計算精度は4%から15.1%に向上した。
論文参考訳（メタデータ） (2025-04-21T04:24:49Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
A Systematic Evaluation of Large Code Models in API Suggestion: When, Which, and How [53.65636914757381]
API提案は、現代のソフトウェア開発において重要なタスクである。大規模コードモデル(LCM)の最近の進歩は、API提案タスクにおいて有望であることを示している。
論文参考訳（メタデータ） (2024-09-20T03:12:35Z)
WorldAPIs: The World Is Worth How Many APIs? A Thought Experiment [49.00213183302225]
本稿では, wikiHow 命令をエージェントの配置ポリシーに基礎付けることで, 新たな API を創出するフレームワークを提案する。大規模言語モデル (LLM) の具体化計画における近年の成功に触発されて, GPT-4 のステアリングを目的とした数発のプロンプトを提案する。
論文参考訳（メタデータ） (2024-07-10T15:52:44Z)
APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets [99.8988504388011]
APIGenは、関数呼び出しアプリケーションのための検証可能な高品質データセットを合成するために設計された、自動データ生成パイプラインである。 APIGenを活用して、21のカテゴリにわたる3,673の実行可能なAPIを収集し、多様な関数呼び出しデータセットを生成します。機能呼び出しエージェントドメインの分野を推し進めるため、6万の高品質なエントリを含むデータセットをリリースする。
論文参考訳（メタデータ） (2024-06-26T17:49:11Z)
APIGen: Generative API Method Recommendation [16.541442856821]
APIGenは、拡張インコンテキスト学習(ICL)によるジェネレーティブAPIレコメンデーションアプローチである APIGenは、語彙、構文、意味の観点から、プログラミングクエリに類似したポストを検索する。推論プロセスにより、APIGenはクエリのプログラミング要件を満たすための推奨APIを提供する。
論文参考訳（メタデータ） (2024-01-29T02:35:42Z)
Pop Quiz! Do Pre-trained Code Models Possess Knowledge of Correct API Names? [28.86399157983769]
CodeBERTやCodexのようなトレーニング済みのコードモデルの最近のブレークスルーは、さまざまな下流タスクにおいて、優れたパフォーマンスを示している。最近の研究によると、最先端の事前訓練されたコードモデルでさえ、コード生成中に正しいAPIを提案することに苦労している。
論文参考訳（メタデータ） (2023-09-14T15:46:41Z)
Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。 TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文参考訳（メタデータ） (2023-07-28T07:43:13Z)
Do All Languages Cost the Same? Tokenization in the Era of Commercial Language Models [68.29126169579132]
APIベンダは、使用量に基づいてユーザを課金する。具体的には、基盤となる言語モデルによって処理されたトークンの数や生成されるトークンの数に基づいて。しかし、トークンを構成するのは、異なる言語で同じ情報を伝達するのに必要なトークンの数に大きなばらつきに依存するトレーニングデータとモデルである。我々は, OpenAI の言語モデル API のコストと有用性について,22言語で多言語ベンチマークを行った。
論文参考訳（メタデータ） (2023-05-23T05:46:45Z)
When Language Model Meets Private Library [25.610036042971043]
実際には、プログラマはプライベートライブラリを使ってコードを書くことが一般的である。これは、トレーニング中にプライベートAPIを見たことがないため、言語モデルにとっての課題である。 APIRetrieverは有用なAPIを見つけ、APICoderはこれらのAPIを使ってコードを生成する。
論文参考訳（メタデータ） (2022-10-31T11:42:06Z)
Binding Language Models in Symbolic Languages [146.3027328556881]
Binderはトレーニング不要のニューラルシンボリックフレームワークで、タスク入力をプログラムにマッピングする。解析の段階では、Codexは元のプログラミング言語では答えられないタスク入力の一部を特定することができる。実行段階では、CodexはAPI呼び出しで適切なプロンプトを与えられた万能機能を実行することができる。
論文参考訳（メタデータ） (2022-10-06T12:55:17Z)
HAPI: A Large-scale Longitudinal Dataset of Commercial ML API Predictions [35.48276161473216]
商用ML APIアプリケーションの1,761,417インスタンスの時系列データセットであるHAPIを提示する。各インスタンスは、APIに対するクエリ入力と、APIの出力予測/アノテーションと信頼性スコアで構成されている。
論文参考訳（メタデータ） (2022-09-18T01:52:16Z)
On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文参考訳（メタデータ） (2022-04-05T20:33:24Z)
Compositional Generalization for Natural Language Interfaces to Web APIs [26.851998759793453]
本稿では,Webアプリケーションプログラミングインタフェース(NL2API)に対する自然言語の新しいデータセットであるOkapiについて述べる。このデータセットは英語で書かれており、3つのドメインをカバーする22,508の質問と9,019のユニークなAPI呼び出しを含んでいる。 NL2APIの新しい構成一般化タスクを定義し、トレーニングセット内の単純なAPI呼び出しから推論フェーズにおける新しいより複雑なAPI呼び出しまで、モデルが外挿する能力を探る。
論文参考訳（メタデータ） (2021-12-09T20:49:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。