論文の概要: Benchmarking LLMs in Web API Integration Tasks
- arxiv url: http://arxiv.org/abs/2509.20172v2
- Date: Fri, 26 Sep 2025 16:24:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-29 14:23:57.774844
- Title: Benchmarking LLMs in Web API Integration Tasks
- Title(参考訳): Web API統合タスクにおけるLLMのベンチマーク
- Authors: Daniel Maninger, Leon Chemnitz, Amir Molzam Sharifloo, Jannis Brugger, Mira Mezini,
- Abstract要約: 本稿では,大規模な言語モデルによるWeb API呼び出しコード生成能力を評価するためのデータセットと評価パイプラインを提案する。
私たちの実験では、API呼び出しの生成が大きな課題となり、幻覚的なエンドポイント、誤った引数の使用、その他のエラーが発生します。
評価済みのオープンソースモデルはいずれも40%以上のタスクを解決できなかった。
- 参考スコア(独自算出の注目度): 3.5669873833301047
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: API integration is a cornerstone of our digital infrastructure, enabling software systems to connect and interact. However, as shown by many studies, writing or generating correct code to invoke APIs, particularly web APIs, is challenging. Although large language models (LLMs) have become popular in software development, their effectiveness in automating the generation of web API integration code remains unexplored. In order to address this, we present a dataset and evaluation pipeline designed to assess the ability of LLMs to generate web API invocation code. Our experiments with several open-source LLMs reveal that generating API invocations poses a significant challenge, resulting in hallucinated endpoints, incorrect argument usage, and other errors. None of the evaluated open-source models were able to solve more than 40% of the tasks.
- Abstract(参考訳): API統合は、私たちのデジタルインフラストラクチャの基盤であり、ソフトウェアシステムが接続し、相互作用することを可能にします。
しかし、多くの研究で示されているように、API、特にWeb APIを呼び出すための正しいコードを書くか、生成することは難しい。
大規模言語モデル(LLM)はソフトウェア開発で人気を博しているが、Web API統合コードの自動生成におけるその効果は未解明のままである。
そこで本研究では,LLMがWeb API呼び出しコードを生成する能力を評価するためのデータセットと評価パイプラインを提案する。
オープンソースのLCMを使った実験では、API呼び出しの生成が大きな課題となり、幻覚的なエンドポイント、誤った引数の使用、その他のエラーが発生します。
評価済みのオープンソースモデルはいずれも40%以上のタスクを解決できなかった。
関連論文リスト
- ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - A Comprehensive Framework for Evaluating API-oriented Code Generation in Large Language Models [14.665460257371164]
GitHub CopilotやChatGPTのような大規模言語モデル(LLM)は、コード生成の強力なツールとして登場した。
API指向コード生成におけるLLMの機能を評価するために設計されたフレームワークであるAutoAPIEvalを提案する。
論文 参考訳(メタデータ) (2024-09-23T17:22:09Z) - FANTAstic SEquences and Where to Find Them: Faithful and Efficient API Call Generation through State-tracked Constrained Decoding and Reranking [57.53742155914176]
APIコール生成は、大規模言語モデルのツール使用能力の基盤となっている。
既存の教師付きおよびコンテキスト内学習アプローチは、高いトレーニングコスト、低いデータ効率、APIドキュメントとユーザの要求に反する生成APIコールに悩まされる。
本稿では,これらの制約に対処するため,FANTASEと呼ばれる出力側最適化手法を提案する。
論文 参考訳(メタデータ) (2024-07-18T23:44:02Z) - SoAy: A Solution-based LLM API-using Methodology for Academic Information Seeking [59.59923482238048]
SoAyは学術情報検索のためのソリューションベースのLLM API利用方法論である。
ソリューションが事前に構築されたAPI呼び出しシーケンスである場合、推論メソッドとしてソリューションを備えたコードを使用する。
その結果、最先端のLLM APIベースのベースラインと比較して34.58-75.99%のパフォーマンス改善が見られた。
論文 参考訳(メタデータ) (2024-05-24T02:44:14Z) - Octopus: On-device language model for function calling of software APIs [9.78611123915888]
大きな言語モデル(LLM)は、高度なテキスト処理と生成能力のために重要な役割を果たす。
本研究は,ソフトウェアAPIの起動において,デバイス上でのLCMを活用するための新たな戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T01:29:28Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。