Fugu-MT 論文翻訳(概要): Learning API Functionality from Demonstrations for Tool-based Agents

論文の概要: Learning API Functionality from Demonstrations for Tool-based Agents

arxiv url: http://arxiv.org/abs/2505.24197v1
Date: Fri, 30 May 2025 04:17:09 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-02 19:47:52.765719
Title: Learning API Functionality from Demonstrations for Tool-based Agents
Title（参考訳）: ツールベースエージェントのデモからAPI機能を学ぶ
Authors: Bhrij Patel, Ashish Jagmohan, Aditya Vempaty,
Abstract要約: ドキュメンテーションのないシナリオに適用可能な新しいパラダイムとして,デモから直接API機能を学ぶことを提案する。実演回数とLCM生成サマリーの使用と評価が,APIベースのエージェントのタスク成功率にどのように影響するかを検討する。明示的な関数呼び出しと自然言語の批判を提供することで、より正確なパラメータの充足によりエージェントのタスク成功率が大幅に向上することがわかった。
参考スコア（独自算出の注目度）: 1.3332982107151432
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Digital tool-based agents that invoke external Application Programming Interfaces (APIs) often rely on documentation to understand API functionality. However, such documentation is frequently missing, outdated, privatized, or inconsistent-hindering the development of reliable, general-purpose agents. In this work, we propose learning API functionality directly from demonstrations as a new paradigm applicable in scenarios without documentation. Using existing API benchmarks, we collect demonstrations from both expert API-based agents and from self-exploration. To understand what information demonstrations must convey for successful task completion, we extensively study how the number of demonstrations and the use of LLM-generated summaries and evaluations affect the task success rate of the API-based agent. Our experiments across 3 datasets and 5 models show that learning functionality from demonstrations remains a non-trivial challenge, even for state-of-the-art LLMs. We find that providing explicit function calls and natural language critiques significantly improves the agent's task success rate due to more accurate parameter filling. We analyze failure modes, identify sources of error, and highlight key open challenges for future work in documentation-free, self-improving, API-based agents.
Abstract（参考訳）: 外部アプリケーションプログラミングインターフェース(API)を呼び出すデジタルツールベースのエージェントは、API機能を理解するためにドキュメントに依存することが多い。しかし、そのような文書は、しばしば欠落、時代遅れ、民営化、あるいは、信頼性の高い汎用エージェントの開発を妨げる不整合性を欠いている。本研究では,ドキュメントのないシナリオに適用可能な新しいパラダイムとして,デモから直接API機能を学ぶことを提案する。既存のAPIベンチマークを使用して、専門家のAPIベースのエージェントと自己探索の両方からデモを収集します。実演がタスク完了にどのような効果をもたらすかを理解するため,実演回数とLCM生成サマリーの使用量,評価がAPIベースのエージェントのタスク成功率にどのように影響するかを幅広く検討する。 3つのデータセットと5つのモデルにまたがる実験により、デモからの学習機能は、最先端のLLMでさえも、非常に難しい課題であることがわかった。明示的な関数呼び出しと自然言語の批判を提供することで、より正確なパラメータの充足によりエージェントのタスク成功率が大幅に向上することがわかった。私たちは、障害モードを分析し、エラーの原因を特定し、ドキュメントのない、自己改善型のAPIベースのエージェントにおける将来の作業における重要なオープンな課題を強調します。

関連論文リスト

Evaluating LLMs on Sequential API Call Through Automated Test Generation [10.621357661774244]
StateGenは、シーケンシャルなAPIインタラクションを含む多様なコーディングタスクを生成するように設計された、自動化されたフレームワークである。 3つの代表的なシナリオにまたがる120の検証済みのテストケースを含むベンチマークであるStateEvalを構築します。実験の結果、StateGenは挑戦的で現実的なAPI指向のタスクを効果的に生成できることを確認した。
論文参考訳（メタデータ） (2025-07-13T03:52:51Z)
Small Models, Big Tasks: An Exploratory Empirical Study on Small Language Models for Function Calling [6.102559098873098]
関数呼び出しは、情報検索、ソフトウェア工学、自動化といった分野に広く応用される複雑なタスクである。 LLM(Large Language Models)はこのプロセスを自動化できるが、計算コストが高く、リソース制約のある環境では実用的ではない。小型言語モデル(SLM)は効率よく動作し、応答時間を短縮し、計算要求を低減できる。
論文参考訳（メタデータ） (2025-04-27T15:26:51Z)
A Framework for Testing and Adapting REST APIs as LLM Tools [5.758488787763118]
エージェントのツールとして機能するREST APIの評価と拡張を目的とした,新しいテストフレームワークを提案する。当社のフレームワークはapisをツールとして変換し、APIの包括的なテストケースを生成し、ケースを自然言語命令に変換し、エージェントがAPIを正しく呼び出し、そのインプットとレスポンスを処理する能力を評価する。
論文参考訳（メタデータ） (2025-04-22T02:52:08Z)
Learning Task Representations from In-Context Learning [73.72066284711462]
大規模言語モデル(LLM)は、文脈内学習において顕著な習熟性を示している。 ICLプロンプトにおけるタスク情報をアテンションヘッドの関数として符号化するための自動定式化を導入する。提案手法の有効性は,最後の隠れ状態の分布と最適に実行されたテキスト内学習モデルとの整合性に起因していることを示す。
論文参考訳（メタデータ） (2025-02-08T00:16:44Z)
ExploraCoder: Advancing code generation for multiple unseen APIs via planning and chained exploration [70.26807758443675]
ExploraCoderはトレーニング不要のフレームワークで、大規模な言語モデルにコードソリューションで見えないAPIを呼び出す権限を与える。 ExploraCoderは,事前のAPI知識を欠いたモデルのパフォーマンスを著しく向上させ,NAGアプローチの11.24%,pass@10の事前トレーニングメソッドの14.07%を絶対的に向上させることを示す。
論文参考訳（メタデータ） (2024-12-06T19:00:15Z)
Learning to Ask: When LLM Agents Meet Unclear Instruction [55.65312637965779]
大きな言語モデル(LLM)は、言語スキルだけでは達成不可能なタスクに対処するための外部ツールを活用することができる。我々は、不完全な命令下でのLLMツールの使用性能を評価し、エラーパターンを分析し、Noisy ToolBenchと呼ばれる挑戦的なツール使用ベンチマークを構築した。 Ask-when-Needed (AwN) という新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-08-31T23:06:12Z)
ShortcutsBench: A Large-Scale Real-world Benchmark for API-based Agents [7.166156709980112]
textscShortcutsBenchは、実世界の複雑なタスクを解決するためのAPIベースのエージェントの包括的な評価のためのベンチマークである。 textscShortcutsBenchには、Apple Inc.の豊富な実際のAPI、洗練されたユーザクエリ、人間のアノテーションによる高品質なアクションシーケンス、詳細なパラメータフィリング値、システムやユーザから必要な入力を要求するパラメータが含まれている。
論文参考訳（メタデータ） (2024-06-28T08:45:02Z)
Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文参考訳（メタデータ） (2024-06-02T16:53:21Z)
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文参考訳（メタデータ） (2024-02-23T18:30:49Z)
MLAgentBench: Evaluating Language Agents on Machine Learning Experimentation [96.71370747681078]
我々は,CIFAR-10におけるモデル性能の改善から,BabyLMのような最近の研究課題まで,13のタスクからなるMLAgentBenchを紹介した。各タスクに対して、エージェントはファイルの読み書き、コードの実行、出力の検査などのアクションを実行することができる。我々は、Claude v1.0、Claude v2.1、Claude v3 Opus、GPT-4、GPT-4-turbo、Gemini-Pro、Mixtralに基づいてベンチマークエージェントをベンチマークし、Claude v3 Opusエージェントが成功率の点で最高であることを示す。
論文参考訳（メタデータ） (2023-10-05T04:06:12Z)
Tool Documentation Enables Zero-Shot Tool-Usage with Large Language Models [90.96816639172464]
大規模言語モデル(LLM)は、ツールの使用のデモを提供することで、新しいツールを使用するように教えられている。デモよりも、ツールドキュメンテーションの使用、個々のツール使用方法の説明を推奨します。
論文参考訳（メタデータ） (2023-08-01T17:21:38Z)
API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs [84.45284695156771]
API-Bankは、ツール強化された大規模言語モデルのための画期的なベンチマークである。 73のAPIツールからなる実行評価システムを開発した。我々は、1,000の異なるドメインにまたがる2,138のAPIから1,888のツール使用対話を含む総合的なトレーニングセットを構築した。
論文参考訳（メタデータ） (2023-04-14T14:05:32Z)
ICL-D3IE: In-Context Learning with Diverse Demonstrations Updating for Document Information Extraction [56.790794611002106]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて、文脈内学習による顕著な結果を示している。 ICL-D3IEと呼ばれるシンプルだが効果的なテキスト内学習フレームワークを提案する。具体的には、ハードトレーニング文書から最も困難で独特なセグメントをハードデモとして抽出する。
論文参考訳（メタデータ） (2023-03-09T06:24:50Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。