Fugu-MT 論文翻訳(概要): EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts

論文の概要: EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts

arxiv url: http://arxiv.org/abs/2604.00392v1
Date: Wed, 01 Apr 2026 02:21:55 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-02 16:44:31.797249
Title: EvolveTool-Bench: Evaluating the Quality of LLM-Generated Tool Libraries as Software Artifacts
Title（参考訳）: EvolveTool-Bench: LLM生成ツールライブラリの品質をソフトウェアアーチファクトとして評価する
Authors: Alibek T. Kaliyev, Artem Maryanskyy,
Abstract要約: ソフトウェア工学におけるツールライブラリの診断ベンチマークであるEvolveToolBenchを紹介する。ライブラリレベルのソフトウェア品質メトリクス -- 再利用、冗長性、コンポジションの成功、回帰、安全性 -- を定義します。課題完了度が類似したシステムでは,図書館の健康状態が最大18%異なっており,タスクのみの評価ではソフトウェア品質のリスクが見えないことが明らかとなった。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Modern LLM agents increasingly create their own tools at runtime -- from Python functions to API clients -- yet existing benchmarks evaluate them almost exclusively by downstream task completion. This is analogous to judging a software engineer only by whether their code runs, ignoring redundancy, regression, and safety. We introduce EvolveTool-Bench, a diagnostic benchmark for LLM-generated tool libraries in software engineering workflows. Across three domains requiring actual tool execution (proprietary data formats, API orchestration, and numerical computation), we define library-level software quality metrics -- reuse, redundancy, composition success, regression stability, and safety -- alongside a per-tool Tool Quality Score measuring correctness, robustness, generality, and code quality. In the first head-to-head comparison of code-level and strategy-level tool evolution (ARISE vs. EvoSkill vs. one-shot baselines, 99 tasks, two models), we show that systems with similar task completion (63-68%) differ by up to 18% in library health, revealing software quality risks invisible to task-only evaluation. Our results highlight that evaluation and governance of LLM-generated tools require treating the evolving tool library as a first-class software artifact, not a black box.
Abstract（参考訳）: 現代のLLMエージェントは、Python関数からAPIクライアントまで、実行時に独自のツールを作成するようになっている。これは、コードが動作しているか、冗長性、回帰性、安全性を無視しているかのみ、ソフトウェアエンジニアを判断するのと似ている。我々は,ソフトウェア工学ワークフローにおけるLLM生成ツールライブラリの診断ベンチマークであるEvolveTool-Benchを紹介する。実際のツール実行を必要とする3つの領域(プロプライエタリなデータフォーマット、APIオーケストレーション、数値計算)で、ライブラリレベルのソフトウェア品質メトリクス -- 再利用、冗長性、コンポジションの成功、回帰安定性、安全性 -- を、ツールごとの品質スコアとともに定義します。コードレベルのツール進化と戦略レベルのツール進化(ARISE対EvoSkill対1ショットベースライン、99タスク、2モデル)の初回比較では、同様のタスク完了(63～68%)を持つシステムが図書館の健康の最大18%まで異なることを示し、タスクのみの評価では見えないソフトウェア品質のリスクを明らかにする。 LLM生成ツールの評価とガバナンスには,ツールライブラリをブラックボックスではなく,第1級のソフトウェアアーティファクトとして扱う必要がある。

関連論文リスト

TimeMachine-bench: A Benchmark for Evaluating Model Capabilities in Repository-Level Migration Tasks [12.573674060643787]
TimeMachine-benchは、現実のPythonプロジェクトでソフトウェアマイグレーションを評価するために設計されたベンチマークである。私たちのベンチマークは、依存関係の更新に応じてテストが失敗し始めるGitHubリポジトリで構成されています。
論文参考訳（メタデータ） (2026-01-30T05:42:45Z)
Transductive Visual Programming: Evolving Tool Libraries from Experience for Spatial Reasoning [63.071280297939005]
提案するTransductive Visual Programming (TVP, Transductive Visual Programming) は、投機ではなく、独自の経験から新しいツールを構築する新しいフレームワークである。 TVPは最先端のパフォーマンスを達成し、GPT-4oを22%上回り、以前の最高のビジュアルプログラミングシステムを11%上回っている。私たちの研究は、自己進化型ビジュアルプログラミングエージェントを構築するための強力なパラダイムとして、経験駆動型トランスダクティブツールの作成を確立します。
論文参考訳（メタデータ） (2025-12-24T04:30:21Z)
Tool-R1: Sample-Efficient Reinforcement Learning for Agentic Tool Use [50.02614257515131]
大規模言語モデル(LLM)は、言語理解と推論において強力な能力を示している。本稿では,LLMの汎用的,構成的,多段階的なツール使用を可能にする強化学習フレームワークであるTool-R1を提案する。
論文参考訳（メタデータ） (2025-09-16T09:22:21Z)
Advancing Tool-Augmented Large Language Models via Meta-Verification and Reflection Learning [63.2198957755528]
本稿では,2つの重要なイノベーションを通じてシステム2推論を包括的に行う新しいツール拡張LDMであるTool-MVRを提案する。具体的には、まず、API、クエリ、推論トラジェクトリを厳格に検証する体系的なパイプラインであるMulti-Agent Meta-Verification(MAMV)を紹介します。第2に,ツールフィードバックを活用することで,ツールのリフレクション機能を向上させるExploration-based Reflection Learning (EXPLORE)を提案する。
論文参考訳（メタデータ） (2025-06-05T04:35:49Z)
LLM Agents Making Agent Tools [2.5529148902034637]
ツールの使用は、大規模言語モデル(LLM)を、複雑なマルチステップタスクを実行できる強力なエージェントに変えた。しかし、これらのツールは人間の開発者によって事前に実装されなければならない。論文をコードで自律的にLLM互換のツールに変換するエージェントフレームワークであるToolMakerを提案する。
論文参考訳（メタデータ） (2025-02-17T11:44:11Z)
Tool Learning in the Wild: Empowering Language Models as Automatic Tool Agents [56.822238860147024]
大規模な言語モデルを外部ツールで拡張することは、彼らのユーティリティを拡張するための有望なアプローチとして現れました。以前のメソッドは、ツールドキュメントを手動で解析し、コンテキスト内デモを作成し、ツールをLLMがステップバイステップの推論で使用する構造化フォーマットに変換する。 LLMがツール使用ワークフローを自動化できるフレームワークであるAutoToolsを提案する。
論文参考訳（メタデータ） (2024-05-26T11:40:58Z)
StableToolBench: Towards Stable Large-Scale Benchmarking on Tool Learning of Large Language Models [74.88844320554284]
ToolBenchから進化したベンチマークであるStableToolBenchを紹介します。仮想APIサーバには、キャッシングシステムとAPIシミュレータが含まれており、APIステータスの変更を緩和するための補完となる。安定評価システムは、GPT-4を自動評価器として使用し、評価中のランダム性を排除し、解決可能なパスと勝利率を設計する。
論文参考訳（メタデータ） (2024-03-12T14:57:40Z)
User Centric Evaluation of Code Generation Tools [2.8115477071897788]
本稿では,大規模言語モデル(LLM)のユーザビリティを評価するために,ユーザ中心の手法を提案する。ベンチマークのテストケースにメタデータが含まれており、その使用を記述し、LLMの使用を模倣する多段階的なプロセスでテストを実行し、ユーザビリティを反映した品質属性セットに基づいてLLM生成ソリューションを測定し、ツールとしてLLMを使用する際のユーザエクスペリエンスに基づいたパフォーマンスを評価する。
論文参考訳（メタデータ） (2024-02-05T15:56:19Z)
Teaching Code LLMs to Use Autocompletion Tools in Repository-Level Code Generation [15.461189659020187]
コード大言語モデル(LLM)は、リポジトリレベルの依存関係に対する認識の欠如により、リポジトリレベルのコード生成の制限に直面します。 ToolGenは、自動補完ツールをコードLLM生成プロセスに統合し、これらの依存関係に対処するアプローチです。 ToolGenは、Trigger InsertionとModel Fine-tuning(Offline)とツール統合コード生成(Online)の2つの主要なフェーズで構成されている。
論文参考訳（メタデータ） (2024-01-12T06:03:56Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。