論文の概要: Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution
- arxiv url: http://arxiv.org/abs/2605.28000v1
- Date: Wed, 27 May 2026 05:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.782653
- Title: Tool Forge: A Validation-Carrying Toolchain for Governed Agentic Execution
- Title(参考訳): Tool Forge: 管理されたエージェント実行のためのバリデーションキャッシュツールチェーン
- Authors: Swanand Rao,
- Abstract要約: 本稿では,自然言語能力の意図をサンドボックスで検証されたツールアーティファクトに変換する検証用ツールチェーンであるTool Forgeを紹介する。
また、モデルコンテキストに完全なカタログスキーマをロードする代わりに、インテントスコープツールセッションを公開するルータも導入されている。
- 参考スコア(独自算出の注目度): 3.2702644625831794
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Large language model agents are increasingly expected to perform operational work: calling APIs, manipulating files, assembling workflows, and acting inside enterprise systems. Yet the tool layer on which this execution depends is still commonly treated as either a hand-written integration artifact or a static list of schemas exposed to a model. This paper introduces Tool Forge, a validation-carrying toolchain for converting natural-language capability intent into governed, sandbox-verified, cataloged tool artifacts and exposing those artifacts to agents through a token-efficient routing layer. Tool Forge treats a tool as a capsule containing intent, capability contract, implementation, dependency policy, tests, documentation, runtime validation evidence, lifecycle state, credential bindings, and routing metadata. It also introduces a Router that exposes intent-scoped tool sessions instead of loading full catalog schemas into the model context. We describe the system architecture, validation pipeline, MCP-facing routing model, governance controls, and initial reproducible benchmarks from the open-source implementation. Across 83 Router benchmark cases, Tool Forge Router achieves aggregate micro-F1 of 0.901 while reducing estimated task-flow tool context by 99.2% relative to naive full-catalog schema exposure. In a 25-case end-to-end generation probe over local-tool tasks, Tool Forge generates 25 of 25 tool bundles, reaches micro-F1 of 0.940 against deterministic acceptance checks, and passes 23 of 25 live sandbox validations. These results are presented as an initial systems benchmark, not as a state-of-the-art claim. The paper identifies remaining challenges in adversarial routing, broader API grounding, sandbox isolation, and cross-system evaluation.
- Abstract(参考訳): 大規模な言語モデルエージェントは、APIの呼び出し、ファイルの操作、ワークフローの組み立て、エンタープライズシステム内の動作など、運用作業の実行がますます期待されている。
しかし、この実行に依存するツール層は、手書きの統合アーティファクトか、モデルに公開されたスキーマの静的リストとして一般的に扱われます。
本稿では,自然言語能力の意図を管理対象のサンドボックスで検証されたカタログ化されたツールアーティファクトに変換し,それらのアーティファクトをトークン効率の高いルーティング層を通じてエージェントに公開するための検証用ツールチェーンであるTool Forgeを紹介する。
Tool Forgeはツールをインテント、機能契約、実装、依存性ポリシー、テスト、ドキュメント、ランタイムバリデーション、ライフサイクル状態、クレデンシャルバインディング、ルーティングメタデータを含むカプセルとして扱う。
また、モデルコンテキストに完全なカタログスキーマをロードする代わりに、インテントスコープツールセッションを公開するルータも導入されている。
本稿では,システムアーキテクチャ,検証パイプライン,MPP対応ルーティングモデル,ガバナンスコントロール,オープンソース実装からの最初の再現可能なベンチマークについて述べる。
83 Routerのベンチマークケース全体では、Tool Forge Routerは0.901のアグリゲートマイクロF1を達成し、予測されたタスクフローツールコンテキストを、単純なフルカタログスキーマの露出に対して99.2%削減する。
ローカルツールタスクに関する25ケースのエンドツーエンド生成プローブでは、ツールForgeが25のツールバンドルのうち25を生成し、決定論的受け入れチェックに対して0.940のmicro-F1に達し、25のライブサンドボックスバリデーションのうち23をパスしている。
これらの結果は、最先端のクレームではなく、初期システムベンチマークとして提示される。
本論文では,敵対的ルーティング,より広範なAPI基盤,サンドボックス分離,システム間評価といった課題について述べる。
関連論文リスト
- Firefly: Illuminating Large-Scale Verified Tool-Call Data Generation from Real APIs [46.60041435990374]
本稿では,実世界のMPPサーバから検証済みのツールコールデータを生成するためのパイプラインFireFlyを紹介する。
実世界のツール空間のスケールを扱うために、ペアワイズツールグラフとサンプルサブDAGを構築します。
このパイプラインを適用すると、240のサーバと93のツールにまたがる5,144の検証タスクが生成される。
論文 参考訳(メタデータ) (2026-05-17T17:38:17Z) - Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows [2.2228811750157482]
私たちは、"Attention Is All You Need"パラダイムを一般化するスケーラブルな層メカニズムであるTool Attentionを紹介します。
シミュレーションした120toolの6サーバベンチマークで、サーバ単位のトークン数を実際のMPPデプロイメントの公開監査に校正する。
ツールアテンションはターン当たりのツールトークンを95.0%(47.3k ->2.4k)に減らし、効果的なコンテキスト利用(トークン比の量)を24%から91%に引き上げる。
論文 参考訳(メタデータ) (2026-04-23T16:10:00Z) - GTA-2: Benchmarking General Tool Agents from Atomic Tool-Use to Open-Ended Workflows [90.35728421223673]
GTA-2はジェネラル・ツール・エージェント(GTA)の階層的なベンチマークである
現実世界の認証に基づいて構築され、実際のユーザクエリ、デプロイツール、マルチモーダルコンテキストを活用する。
実験では、フロンティアモデルは既に原子タスクに苦戦しているが、トップモデルは14.39%の成功しか達成していない。
論文 参考訳(メタデータ) (2026-04-17T05:36:00Z) - UniToolCall: Unifying Tool-Use Representation, Data, and Evaluation for LLM Agents [22.52508596251479]
構築とデータセット生成から評価に至るまで,パイプライン全体を標準化するツール学習用統合フレームワークであるUniToolCallを提案する。
我々は、7つの公開ベンチマークを、関数呼び出し、ターン、会話のレベルできめ細かい評価を施した、クエリ-Action--Observation-Answer (QAOA) 表現に変換する。
Anchoror-Heavy Hybrid-20では、1ターンのStrict Precisionを93.0%達成し、GPT、Gemini、Claudeといった商用モデルを上回っている。
論文 参考訳(メタデータ) (2026-04-13T14:43:47Z) - Open, Reliable, and Collective: A Community-Driven Framework for Tool-Using AI Agents [22.64138018985385]
我々は、失敗は、ツール使用精度(エージェントがどのようにツールを呼び出すか)と固有のツール精度(ツール自身の正確性)の両方から生じると論じている。
ツールスキーマを標準化するコミュニティ主導のツールボックスであるOpenToolsを紹介します。
OpenToolsには、コアフレームワーク、初期ツールセット、評価パイプライン、コントリビューションプロトコルが含まれている。
論文 参考訳(メタデータ) (2026-03-31T18:42:36Z) - AgentProcessBench: Diagnosing Step-Level Process Quality in Tool-Using Agents [50.481033105867205]
我々はAgentProcessBenchを紹介した。AgentProcessBenchは、現実的なツール拡張トラジェクトリにおけるステップレベルの有効性を評価するための最初のベンチマークである。
ベンチマークは、1,000の多様な軌跡と8,509の人間ラベル付きステップアノテーションと89.1%のアノテーション間合意で構成されている。
探索をキャプチャする3つのラベリングスキームと、ラベルのあいまいさを減らすためのエラー伝搬ルールを備えている。
論文 参考訳(メタデータ) (2026-03-15T16:13:58Z) - ToolRosetta: Bridging Open-Source Repositories and Large Language Model Agents through Automated Tool Standardization [51.92237664440418]
ToolRosettaは、オープンソースのコードリポジトリとAPIを自動的にMPP互換のツールに変換するフレームワークである。
ユーザタスクが与えられた場合、ToolRosettaはツールチェーンを自律的に計画し、関連するツールチェーンを特定し、実行可能なMPPサービスに変換する。
論文 参考訳(メタデータ) (2026-03-10T07:19:43Z) - MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。
これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。
モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文 参考訳(メタデータ) (2026-01-31T23:19:39Z) - DeepAgent: A General Reasoning Agent with Scalable Toolsets [111.6384541877723]
DeepAgentは、自律的な思考、ツール発見、アクション実行を実行するエンドツーエンドのディープ推論エージェントである。
長期にわたる相互作用の課題に対処するために,過去の相互作用を構造化エピソード,動作,ツール記憶に圧縮する自律的メモリ折り畳み機構を導入する。
LLMシミュレートされたAPIを活用し、ツール呼び出しトークンにきめ細かいクレジットを割り当てるツールコールアドバンテージ属性を適用した、エンドツーエンドの強化学習戦略であるToolPOを開発した。
論文 参考訳(メタデータ) (2025-10-24T16:24:01Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。