Fugu-MT 論文翻訳(概要): StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

論文の概要: StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models

arxiv url: http://arxiv.org/abs/2403.07714v3
Date: Fri, 14 Jun 2024 07:19:56 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 18:52:34.220337
Title: StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models
Title（参考訳）: StableToolBench: 大規模言語モデルのツール学習における安定的な大規模ベンチマークを目指して
Authors: Zhicheng Guo, Sijie Cheng, Hao Wang, Shihao Liang, Yujia Qin, Peng Li, Zhiyuan Liu, Maosong Sun, Yang Liu,
Abstract要約: ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
参考スコア（独自算出の注目度）: 74.88844320554284
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have witnessed remarkable advancements in recent years, prompting the exploration of tool learning, which integrates LLMs with external tools to address diverse real-world challenges. Assessing the capability of LLMs to utilise tools necessitates large-scale and stable benchmarks. However, previous works relied on either hand-crafted online tools with limited scale, or large-scale real online APIs suffering from instability of API status. To address this problem, we introduce StableToolBench, a benchmark evolving from ToolBench, proposing a virtual API server and stable evaluation system. The virtual API server contains a caching system and API simulators which are complementary to alleviate the change in API status. Meanwhile, the stable evaluation system designs solvable pass and win rates using GPT-4 as the automatic evaluator to eliminate the randomness during evaluation. Experimental results demonstrate the stability of StableToolBench, and further discuss the effectiveness of API simulators, the caching system, and the evaluator system.
Abstract（参考訳）: 大規模言語モデル(LLM)は近年、目覚ましい進歩を目の当たりにしており、LLMと外部ツールを統合して様々な現実世界の課題に対処するツール学習の探求を促している。 LLMのツール活用能力を評価するには、大規模で安定したベンチマークが必要である。しかし、以前の作業は、手作りのオンラインツールに限られているか、APIステータスの不安定さに悩まされている大規模な実際のオンラインAPIに依存していた。この問題に対処するため、ToolBenchから進化したベンチマークであるStableToolBenchを導入し、仮想APIサーバと安定した評価システムを提案する。仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。一方、安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。実験により,StableToolBenchの安定性を実証し,APIシミュレータ,キャッシングシステム,評価システムの有効性について検討した。

関連論文リスト

TimeMachine-bench: A Benchmark for Evaluating Model Capabilities in Repository-Level Migration Tasks [12.573674060643787]
TimeMachine-benchは、現実のPythonプロジェクトでソフトウェアマイグレーションを評価するために設計されたベンチマークである。私たちのベンチマークは、依存関係の更新に応じてテストが失敗し始めるGitHubリポジトリで構成されています。
論文参考訳（メタデータ） (2026-01-30T05:42:45Z)
Feedback-Driven Tool-Use Improvements in Large Language Models via Automated Build Environments [70.42705564227548]
大規模言語モデル(LLM)のための環境自動構築パイプラインを提案する。これにより、外部ツールに頼ることなく、詳細な測定可能なフィードバックを提供する高品質なトレーニング環境の作成が可能になる。また、ツール使用の精度とタスク実行の完全性の両方を評価する検証可能な報酬機構も導入する。
論文参考訳（メタデータ） (2025-08-12T09:45:19Z)
Machine Learning Pipeline for Software Engineering: A Systematic Literature Review [0.0]
この系統的な文献レビューは、ソフトウェア工学(SE)用に設計された最先端の機械学習パイプラインを検証している。この結果から,データバランシングのためのSMOTEなどの堅牢な前処理がモデルの信頼性を向上させることが示唆された。ランダムフォレストやグラディエントブースティングのようなアンサンブルメソッドはタスク間でパフォーマンスを支配します。 Best Arithmetic Mean (BAM)のような新しいメトリクスはニッチなアプリケーションに現れている。
論文参考訳（メタデータ） (2025-07-31T15:37:30Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
A Framework for Testing and Adapting REST APIs as LLM Tools [5.758488787763118]
エージェントのツールとして機能するREST APIの評価と拡張を目的とした,新しいテストフレームワークを提案する。当社のフレームワークはapisをツールとして変換し、APIの包括的なテストケースを生成し、ケースを自然言語命令に変換し、エージェントがAPIを正しく呼び出し、そのインプットとレスポンスを処理する能力を評価する。
論文参考訳（メタデータ） (2025-04-22T02:52:08Z)
FamilyTool: A Multi-hop Personalized Tool Use Benchmark [94.1158032740113]
ファミリーベースナレッジグラフ(KG)に基づく新しいベンチマークであるFamilyToolを紹介する。 FamilyToolは1から3つのリレーショナルホップにまたがるクエリを伴う大規模言語モデルに挑戦する。実験により、最先端のLCMにおいて大きな性能差が示された。
論文参考訳（メタデータ） (2025-04-09T10:42:36Z)
StableToolBench-MirrorAPI: Modeling Tool Environments as Mirrors of 7,000+ Real-World APIs [25.600516752905964]
MirrorAPIは、実際のAPIレスポンスを正確にシミュレートするために、特殊なLLMをトレーニングするフレームワークである。我々は,シミュレーションの忠実度を高めるために,教師付き微調整と連鎖推論を用いる。 MirrorAPIは最先端の手法に比べて精度と安定性が優れている。
論文参考訳（メタデータ） (2025-03-26T13:13:03Z)
MTU-Bench: A Multi-granularity Tool-Use Benchmark for Large Language Models [66.64809260956312]
MTU-Benchと呼ばれる大規模言語モデルのための多言語ツール使用ベンチマークを提案する。私たちのMTU-Benchは、既存の高品質データセットを変換して、実際のツール使用シナリオをシミュレートすることで収集されます。 MTU-Bench の総合的な実験結果から, MTU-Bench の有効性が示唆された。
論文参考訳（メタデータ） (2024-10-15T15:46:17Z)
Learning Evolving Tools for Large Language Models [44.25796648300785]
ツール変数に対する大規模言語モデル(LLM)の適応性と反射性を向上するツールEVOを提案する。 Monte Carlo Tree Searchを活用することで、ToolEVOは動的環境におけるLLMの積極的な探索と相互作用を促進する。また、ツール変数の影響を評価するために特別に設計されたベンチマークであるToolQA-Dを紹介する。
論文参考訳（メタデータ） (2024-10-09T07:14:45Z)
SEAL: Suite for Evaluating API-use of LLMs [1.2528321519119252]
SEALは、現実世界のAPI使用時に大きな言語モデルを評価するように設計されたエンドツーエンドのテストベッドである。既存のベンチマークを標準化し、API検索と計画をテストするエージェントシステムを統合し、リアルタイムAPIの不安定性に対処する。
論文参考訳（メタデータ） (2024-09-23T20:16:49Z)
ToolSandbox: A Stateful, Conversational, Interactive Evaluation Benchmark for LLM Tool Use Capabilities [30.030101957186595]
ToolSandboxは、大規模言語モデル(LLM)の評価フレームワークである。 ToolSandboxには、ステートフルなツール実行、ツール間の暗黙のステート依存性、オン・ポリケーションの会話評価をサポートする組み込みユーザシミュレータが含まれている。オープンソースとプロプライエタリなモデルには大きなパフォーマンスギャップがあることを示し、ToolSandboxで定義された状態依存、正準化、不十分な情報といった複雑なタスクは、最も有能なSOTA LLMでさえも挑戦している。
論文参考訳（メタデータ） (2024-08-08T05:45:42Z)
Chain of Tools: Large Language Model is an Automatic Multi-tool Learner [54.992464510992605]
Automatic Tool Chain(ATC)は、大規模言語モデル(LLM)がマルチツールユーザとして機能することを可能にするフレームワークである。次に,ツールの範囲を拡大するために,ブラックボックス探索法を提案する。包括的な評価のために、ToolFlowという挑戦的なベンチマークを構築しました。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
AnyTool: Self-Reflective, Hierarchical Agents for Large-Scale API Calls [30.792186243538037]
我々はAnyToolを紹介した。AnyToolは巨大な言語モデルエージェントで、ユーザクエリに対処する膨大なツールの利用に革命をもたらすように設計されている。 Rapid APIから16,000以上のAPIを使用し、これらのAPIのサブセットがクエリを解決できると仮定して運用しています。 AnyToolには,階層構造を持つAPIレトリバー,選択したAPI候補セットを使用したユーザクエリの解決を目的とした解決器,自己反映機構という,3つの要素が含まれている。
論文参考訳（メタデータ） (2024-02-06T18:59:57Z)
Planning, Creation, Usage: Benchmarking LLMs for Comprehensive Tool Utilization in Real-World Complex Scenarios [93.68764280953624]
UltraToolは、ツール利用におけるLarge Language Modelsの能力を改善し評価するために設計された、新しいベンチマークである。現実の複雑さを強調し、効果的な問題解決のために正確で多段階の計画を必要とする。 UltraToolの重要な特徴は、ツールの使用前に発生する自然言語による計画の独立した評価である。
論文参考訳（メタデータ） (2024-01-30T16:52:56Z)
ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs [104.37772295581088]
オープンソースの大規模言語モデル(LLM)、例えばLLaMAは、ツール使用能力に大きく制限されている。データ構築、モデルトレーニング、評価を含む汎用ツールであるToolLLMを紹介する。ツール使用のためのインストラクションチューニングフレームワークであるToolBenchを,ChatGPTを使って自動構築する。
論文参考訳（メタデータ） (2023-07-31T15:56:53Z)
SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文参考訳（メタデータ） (2021-12-22T14:45:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。