Fugu-MT 論文翻訳(概要): NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls

論文の概要: NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls

arxiv url: http://arxiv.org/abs/2409.03797v2
Date: Thu, 23 Jan 2025 18:44:28 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-24 19:17:07.033801
Title: NESTFUL: A Benchmark for Evaluating LLMs on Nested Sequences of API Calls
Title（参考訳）: NESTFUL: APIコールのネストシーケンス上でのLLMの評価ベンチマーク
Authors: Kinjal Basu, Ibrahim Abdelaziz, Kiran Kate, Mayank Agarwal, Maxwell Crouse, Yara Rizk, Kelsey Bradford, Asim Munawar, Sadhana Kumaravel, Saurabh Goyal, Xin Wang, Luis A. Lastras, Pavan Kapanipathi,
Abstract要約: API呼び出しのネストシーケンスに基づいて,大規模言語モデル(LLM)を評価するベンチマークであるNESTFULを提案する。その結果,データセット上での最適性能モデルは,25%,勝率34%の完全シーケンスマッチング精度を有することがわかった。
参考スコア（独自算出の注目度）: 24.183027762617233
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The resurgence of autonomous agents built using large language models (LLMs) to solve complex real-world tasks has brought increased focus on LLMs' fundamental ability of tool or function calling. At the core of these agents, an LLM must plan, execute, and respond using external tools, APIs, and custom functions. Research on tool calling has gathered momentum, but evaluation benchmarks and datasets representing the complexity of the tasks have lagged behind. In this work, we focus on one such complexity, nested sequencing, with the goal of extending existing benchmarks and evaluation. Specifically, we present NESTFUL, a benchmark to evaluate LLMs on nested sequences of API calls, i.e., sequences where the output of one API call is passed as input to a subsequent call. NESTFUL contains 1800+ nested sequences where all the function calls are executable. Experimental results on multiple models and settings show that the best-performing model on the dataset has a full sequence match accuracy of 25% and win-rate of 34% necessitating a large scope for improvement in the nested sequencing aspect of function calling. Our analysis of these results provides possible future research directions for the community, in addition to a benchmark to track progress. We have released the NESTFUL dataset under the Apache 2.0 license at https://github.com/IBM/NESTFUL.
Abstract（参考訳）: 大規模言語モデル(LLM)を用いて構築された複雑な現実世界のタスクを解決する自律エージェントの復活により、LLMのツールや関数呼び出しの基本的な能力に注目が集まるようになった。これらのエージェントの中核では、LCMは外部ツール、API、カスタム関数を使用して計画し、実行し、応答する必要がある。ツール呼び出しの研究は勢いを増しているが、タスクの複雑さを表す評価ベンチマークとデータセットが遅れを取っている。本研究では、既存のベンチマークと評価を拡張することを目的として、ネストシークエンシングという複雑さの1つに焦点を当てる。具体的には、ネストしたAPI呼び出しのシーケンス、すなわち1つのAPI呼び出しの出力が後続の呼び出しへの入力として渡されるシーケンスのLSMを評価するベンチマークであるNESTFULを提案する。 NESTFULには1800以上のネストシーケンスがあり、すべての関数呼び出しが実行可能である。複数のモデルと設定に関する実験結果から、データセット上で最高のパフォーマンスモデルが25%の完全シーケンス一致精度を持ち、34%の勝利率は、関数呼び出しのネストされたシークエンシングの側面を改善するために大きなスコープを必要とすることが示された。これらの結果の分析は、進捗を追跡するベンチマークに加えて、コミュニティの将来的な研究の方向性を提供する。 NESTFULデータセットをApache 2.0ライセンスでhttps://github.com/IBM/NESTFULでリリースしました。

関連論文リスト

ComplexFuncBench: Exploring Multi-Step and Constrained Function Calling under Long-Context Scenario [17.494787282066866]
実世界の5つのシナリオにまたがる複雑な関数呼び出しのベンチマークである ComplexFuncBench を紹介する。既存のベンチマークと比較すると、complexFuncBenchはマルチステップおよび制約付き関数呼び出しを含んでいる。複雑な関数呼び出しタスクを定量的に評価するための自動フレームワークである ComplexEval を提案する。
論文参考訳（メタデータ） (2025-01-17T11:41:53Z)
SpecTool: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
SpecToolは、ツール使用タスクのLLM出力のエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。 SPECTOOLの分析と洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文参考訳（メタデータ） (2024-09-23T20:16:49Z)
Harnessing LLMs for API Interactions: A Framework for Classification and Synthetic Data Generation [0.0]
本稿では,自然言語入力を対応するAPI呼び出しに分類するために,Large Language Models (LLM) を統合する新しいシステムを提案する。本システムでは,単純な入力による複雑なソフトウェア機能の実行,インタラクション効率の向上,ソフトウェア利用障壁の低減を実現している。
論文参考訳（メタデータ） (2024-09-18T04:56:52Z)
SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文参考訳（メタデータ） (2024-07-16T04:41:58Z)
Granite-Function Calling Model: Introducing Function Calling Abilities via Multi-task Learning of Granular Tasks [35.97890508648945]
我々はApache 2.0ライセンスの下で-20B-FUNCTIONCALLINGモデルを紹介します。モデルは7つの基本的なタスクに対してマルチタスクトレーニングアプローチを使用してトレーニングされる。 20B-FUNCTIONCALLINGは、7つの異なる評価データセットにおいて、複数のタスクに対してより一般化可能であることを示す。
論文参考訳（メタデータ） (2024-06-27T17:47:26Z)
DARG: Dynamic Evaluation of Large Language Models via Adaptive Reasoning Graph [70.79413606968814]
本稿では,適応推論グラフ展開(DARG)によるLCMの動的評価を導入し,複雑性と多様性を制御した現在のベンチマークを動的に拡張する。具体的には、まず現在のベンチマークでデータポイントの推論グラフを抽出し、それから推論グラフを摂動させて新しいテストデータを生成する。このような新しく生成されたテストサンプルは、元のベンチマークと同様の言語的多様性を維持しながら、複雑さのレベルが異なる可能性がある。
論文参考訳（メタデータ） (2024-06-25T04:27:53Z)
BigCodeBench: Benchmarking Code Generation with Diverse Function Calls and Complex Instructions [72.56339136017759]
BigCodeBenchは、大規模言語モデル(LLM)に対して、139のライブラリと7つのドメインから1140のきめ細かいタスクに対して、複数の関数呼び出しをツールとして呼び出すためのベンチマークである。評価の結果,LLMは機能コールを正確に使用するための複雑な指示に従うことができず,スコアは最大60%,人的性能は97%と極めて低いことがわかった。そこで本研究では,BigCodeBench-Instructという自然言語指向の変種を提案する。
論文参考訳（メタデータ） (2024-06-22T15:52:04Z)
LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs [0.09374652839580183]
実際には、自然言語のタスク要求(ユーザクエリ)は不完全であることが多い。論理的推論と古典的AI計画とLLMを併用して,ユーザのクエリを正確に応答する。提案手法は,完全かつ不完全な単一目標とマルチゴールクエリを含むデータセットにおいて,95%以上の成功率を達成する。
論文参考訳（メタデータ） (2024-05-21T01:16:34Z)
Ada-LEval: Evaluating long-context LLMs with length-adaptable benchmarks [76.43527940649939]
大規模言語モデル(LLM)の長文理解を評価するベンチマークであるAda-LEvalを紹介する。 Ada-LEvalにはTSortとBestAnswerという2つの挑戦的なサブセットが含まれている。 Ada-LEvalを用いた4つの最先端クローズドソースAPIモデルと6つのオープンソースモデルを評価した。
論文参考訳（メタデータ） (2024-04-09T17:30:48Z)
API-BLEND: A Comprehensive Corpora for Training and Benchmarking API LLMs [28.840207102132286]
既存のデータセットを特定し、キュレーションし、変換するタスクに重点を置いています。ツール拡張LDMのトレーニングと体系的なテストを行うための大規模なコーパスであるAPI-BLENDを紹介する。トレーニングとベンチマークの両方の目的で,API-BLENDデータセットの有用性を実証する。
論文参考訳（メタデータ） (2024-02-23T18:30:49Z)
PPTC Benchmark: Evaluating Large Language Models for PowerPoint Task Completion [96.47420221442397]
我々はPowerPoint Task Completionベンチマークを導入し、大規模言語モデルがマルチターン・マルチモーダル命令を完了する能力を評価する。また,ラベルAPIシーケンスではなく,予測ファイルに基づいてLCMが命令を終了するかどうかを評価するPTX-Match評価システムを提案する。その結果、GPT-4はシングルターン対話テストにおいて75.1%の精度で他のLLMよりも優れていたが、セッション全体を完成させる際の課題に直面しており、セッションの精度は6%に過ぎなかった。
論文参考訳（メタデータ） (2023-11-03T08:06:35Z)
Reverse Chain: A Generic-Rule for LLMs to Master Multi-API Planning [8.96245399645571]
本稿では,制御可能なターゲット駆動型アプローチであるReverse Chain'を紹介し,プロンプトのみで外部APIを操作可能な大規模言語モデルを提案する。制御可能な多機能呼び出しを管理するために、Reverse Chainは、後方推論プロセスに基づいたジェネリックルールを採用する。
論文参考訳（メタデータ） (2023-10-06T05:20:18Z)
MLLM-DataEngine: An Iterative Refinement Approach for MLLM [62.30753425449056]
本稿では,データ生成,モデルトレーニング,評価を橋渡しする新しいクローズドループシステムを提案する。各ループ内で、MLLM-DataEngineはまず評価結果に基づいてモデルの弱点を分析する。ターゲットとして,異なる種類のデータの比率を調整する適応型バッドケースサンプリングモジュールを提案する。品質については、GPT-4を用いて、各データタイプで高品質なデータを生成する。
論文参考訳（メタデータ） (2023-08-25T01:41:04Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)
Allies: Prompting Large Language Model with Beam Search [107.38790111856761]
本研究では,ALIESと呼ばれる新しい手法を提案する。入力クエリが与えられた場合、ALLIESはLLMを活用して、元のクエリに関連する新しいクエリを反復的に生成する。元のクエリのスコープを反復的に精錬して拡張することにより、ALLIESは直接検索できない隠れた知識をキャプチャし、利用する。
論文参考訳（メタデータ） (2023-05-24T06:16:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。