論文の概要: Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition
- arxiv url: http://arxiv.org/abs/2606.03657v1
- Date: Tue, 02 Jun 2026 13:46:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:05.040913
- Title: Diagnosing Knowledge Gaps in LLM Tool Use: An Agentic Benchmark for Novel API Acquisition
- Title(参考訳): LLMツール使用時の知識ギャップの診断:新しいAPI獲得のためのエージェントベンチマーク
- Authors: Jinnuo Liu, Yue Peng, Jinhan Niu, Hongyi Wen,
- Abstract要約: NovelAPIBenchは、任意のベースモデルとターゲットライブラリの動的ベンチマークである。
探索によって注入された知識とパラメトリック適応によって内部化された知識を比較した。
Retrievalは揮発性のAPIコンテンツを提供し、チューニングは手続き統合を改善する。
- 参考スコア(独自算出の注目度): 2.392878902712915
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models for code generation often need to use APIs that are absent from their pretraining data. This requires more than recalling a function name: models must coordinate signatures, module paths, input-output contracts, semantics, and executable usage patterns. Existing novel-API benchmarks are typically static, rely on coarse pass/fail metrics, or use synthetic APIs that may not reflect real library evolution. We introduce NovelAPIBench, a fully automated dynamic benchmark that, for any base model and target library, discovers novel APIs, extracts decomposed knowledge bundles, generates executable coding tasks, and assigns failed samples to six diagnostic categories. Across about 1.9K tasks, four base models, and five domains, we compare knowledge injected through retrieval with knowledge internalized through parametric adaptation. We find that knowledge components are not interchangeable: usage examples are the strongest standalone signal, while the best two-component setting pairs signatures with either mechanisms or examples depending on the domain and backbone. Adding more context, especially source code, can hurt by increasing import-path errors. Parametric adaptation also does not replace retrieval once external knowledge is removed; rather, fine-tuning mainly teaches models how to use provided bundles, and this ability transfers to held-out libraries. These results suggest that retrieval and tuning play complementary roles: retrieval supplies volatile API content, while tuning improves procedural integration.
- Abstract(参考訳): コード生成のための大規模な言語モデルは、事前訓練されたデータにないAPIを使う必要があることが多い。
モデルはシグネチャ、モジュールパス、入出力契約、セマンティクス、実行可能な利用パターンを調整する必要があります。
既存の新しいAPIベンチマークは一般的に静的であり、粗いパス/フェイルメトリクスに依存している。
NovelAPIBenchは,任意のベースモデルと対象ライブラリに対して,新しいAPIを発見し,分解した知識バンドルを抽出し,実行可能なコーディングタスクを生成し,失敗したサンプルを6つの診断カテゴリに割り当てる,完全に自動化された動的ベンチマークである。
約1,9Kタスク,4つのベースモデル,5つのドメインにおいて,探索によって注入された知識とパラメトリック適応によって内部化された知識とを比較した。
使用例は最強のスタンドアロン信号であり、最高の2コンポーネントセットペアはドメインとバックボーンに依存するメカニズムまたは例である。
より多くのコンテキスト、特にソースコードを追加すると、インポートパスエラーが増大する。
パラメトリック適応は、外部知識が取り除かれると検索を置き換えないが、細調整は、提供されるバンドルの使い方を主にモデルに教え、この機能は保留ライブラリに転送する。
これらの結果は,検索とチューニングが補完的な役割を担っていることを示唆している。
関連論文リスト
- Framework-Aware Code Generation with API Knowledge Graph-Constructed Data: A Study on HarmonyOS [52.483888557864326]
APIKG4SYNはAPI指向の質問コードペアの構築にAPIナレッジグラフを活用するように設計されたフレームワークである。
APIKG4SYNを使ったHarmonyOSコード生成のための最初のベンチマークを構築した。
論文 参考訳(メタデータ) (2025-11-29T08:13:54Z) - ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。
実験の結果、ExploreaCoderは、事前のAPI知識に欠けるモデルのパフォーマンスを大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-12-06T19:00:15Z) - Commit0: Library Generation from Scratch [77.38414688148006]
Commit0は、AIエージェントにスクラッチからライブラリを書くよう促すベンチマークである。
エージェントには、ライブラリのAPIを概説する仕様文書と、インタラクティブなユニットテストスイートが提供されている。
Commit0はまた、モデルが生成したコードに対して静的解析と実行フィードバックを受け取る、インタラクティブな環境も提供する。
論文 参考訳(メタデータ) (2024-12-02T18:11:30Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - Are Human Rules Necessary? Generating Reusable APIs with CoT Reasoning and In-Context Learning [14.351476383642016]
そこで我々は,Stack OverflowコードスニペットのAPIzationを自動的に実行する,Code2APIという新しいアプローチを提案する。
Code2APIは、追加のモデルトレーニングや手作業のルールを必要としない。
他の外部ツールに頼ることなく、パーソナルコンピュータに簡単にデプロイできる。
論文 参考訳(メタデータ) (2024-05-06T14:22:17Z) - Lightweight Syntactic API Usage Analysis with UCov [0.0]
本稿では,ライブラリメンテナのAPIによるインタラクション理解を支援するための,新しい概念フレームワークを提案する。
これらのカスタマイズ可能なモデルにより、ライブラリメンテナはリリース前に設計を改善することができ、進化中の摩擦を減らすことができる。
我々は,これらのモデルを新しいツールUCovに実装し,多様なインタラクションスタイルを示す3つのライブラリ上でその能力を実証する。
論文 参考訳(メタデータ) (2024-02-19T10:33:41Z) - SpeCrawler: Generating OpenAPI Specifications from API Documentation
Using Large Language Models [8.372941103284774]
SpeCrawlerは、さまざまなAPIドキュメントからOpenAPI仕様を生成する包括的なシステムである。
本稿では,実証的証拠とケーススタディに支えられたSpeCrawlerの方法論について考察する。
論文 参考訳(メタデータ) (2024-02-18T15:33:24Z) - Private-Library-Oriented Code Generation with Large Language Models [52.73999698194344]
本稿では,大規模言語モデル(LLM)をプライベートライブラリのコード生成に活用することに焦点を当てる。
プログラマがプライベートコードを書く過程をエミュレートする新しいフレームワークを提案する。
TorchDataEval、TorchDataComplexEval、MonkeyEval、BeatNumEvalの4つのプライベートライブラリベンチマークを作成しました。
論文 参考訳(メタデータ) (2023-07-28T07:43:13Z) - On the Effectiveness of Pretrained Models for API Learning [8.788509467038743]
開発者は、Excelファイルのパース、行ごとのテキストファイルの読み書きなど、特定の機能を実装するためにAPIを使うことが多い。
開発者は、より高速でクリーンな方法でアプリケーションを構築するために、自然言語クエリに基づいた自動API使用シーケンス生成の恩恵を受けることができる。
既存のアプローチでは、クエリが与えられたAPIシーケンスの検索や、RNNベースのエンコーダデコーダを使用してAPIシーケンスを生成するために、情報検索モデルを使用している。
論文 参考訳(メタデータ) (2022-04-05T20:33:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。