Fugu-MT 論文翻訳(概要): Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance

論文の概要: Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance

arxiv url: http://arxiv.org/abs/2603.13404v1
Date: Thu, 12 Mar 2026 07:11:16 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-17 16:19:35.171801
Title: Schema First Tool APIs for LLM Agents: A Controlled Study of Tool Misuse, Recovery, and Budgeted Performance
Title（参考訳）: LLMエージェントのためのスキーマファーストツールAPI:ツールミス、リカバリ、予算パフォーマンスの制御された研究
Authors: Akshey Sigdel, Rista Baral,
Abstract要約: 厳密な相互作用予算の下で、スキーマベースのツール契約と構造化診断によって信頼性が向上するかどうかを検討する。ログ、メトリクス、設定、バリデーションタスクを備えた決定論的ソフトウェアエンジニアリングサンドボックスを実装します。エンドタスクの成功、誤用、実行失敗、セマンティック誤用、リカバリ動作、タイムアウトを報告します。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Tool use has become central to modern LLM agents, yet interface design is rarely isolated as an experimental variable. This paper studies whether schema based tool contracts and structured validation diagnostics improve reliability under strict interaction budgets. We evaluate three conditions that preserve identical tool semantics and information content: free form documentation, JSON Schema specifications, and JSON Schema with structured diagnostics. We implement a deterministic software engineering sandbox with logs, metrics, configurations, and repository tasks, and evaluate a fully crossed pilot with one open local model, three seeds, three interface conditions, and four budgets. We report end task success, interface misuse, execution failures, semantic misuse, recovery behavior, and overhead. In this pilot, success remains zero across conditions, while schema conditions reduce interface misuse but not semantic misuse. The evidence supports a precise interpretation that interface formalization improves contract adherence, but semantic action quality and timeout sensitive tasks remain dominant bottlenecks under constrained local inference.
Abstract（参考訳）: ツールの使用は現代のLLMエージェントの中心となっているが、インタフェース設計は実験変数として分離されることは滅多にない。本稿では,厳密な相互作用予算の下で,スキーマベースのツール契約と構造化検証により信頼性が向上するかどうかを検討する。フリーフォームドキュメンテーション,JSONスキーマ仕様,構造化診断付きJSONスキーマの3つの条件について検討した。ログ、メトリクス、設定、リポジトリタスクを備えた決定論的ソフトウェアエンジニアリングサンドボックスを実装し、完全にクロスクロスしたパイロットを1つのオープンローカルモデル、3つのシード、3つのインターフェース条件、4つの予算で評価する。エンドタスクの成功、インターフェースの誤用、実行障害、セマンティックな誤用、リカバリ動作、オーバーヘッドを報告します。このパイロットでは、成功は条件によってゼロであり、スキーマ条件はインターフェイスの誤用を減らすが、セマンティックな誤用はしない。この証拠は、インターフェイスの形式化が契約の遵守を改善するという正確な解釈を支持するが、セマンティックアクションの品質とタイムアウトに敏感なタスクは、制約された局所的推論の下で支配的なボトルネックのままである。

関連論文リスト

AgentSkiller: Scaling Generalist Agent Intelligence through Semantically Integrated Cross-Domain Data Synthesis [30.512393568258105]
大規模言語モデルエージェントは、ツールを介して現実世界の問題を解決する可能性を実証するが、汎用的な知性は、質の低い長期データによってボトルネックとなる。本稿では,現実的なセマンティックなドメイン間でのマルチターンインタラクションデータを合成する,完全に自動化されたフレームワークであるAgentSkillerを提案する。
論文参考訳（メタデータ） (2026-02-10T03:21:42Z)
MCP-Atlas: A Large-Scale Benchmark for Tool-Use Competency with Real MCP Servers [5.463884405989425]
ツール使用能力評価のための大規模ベンチマークであるMPP-Atlasを紹介する。これには、現実的で多段階のオーケストレーションにおいて、ツール使用能力を評価するために設計された1000のタスクが含まれている。モデルの最終回答で満たされた事実に基づく部分的信用を付与するクレームベースのルーブリックを使用してタスクをスコアする。
論文参考訳（メタデータ） (2026-01-31T23:19:39Z)
PARSE: LLM Driven Schema Optimization for Reliable Entity Extraction [3.314906482758872]
近年のアプローチでは,制約デコーディングや強化学習といった手法を用いて,既存のスキーマを用いたタスク抽出に,大規模言語モデルを直接適用している。しかし,スキーマを人間開発者用に設計された静的コントラクトとして扱うことにより,最適抽出性能,頻繁な幻覚,不完全あるいは不完全仕様を含む場合の信頼性の低いエージェント動作が実現されている。 ARCHITECTは、RELAYを介して後方互換性を維持しながら、消費のためのスキーマを自律的に最適化するシステムであり、SCOPEは静的およびLLMベースの抽出を実装し、モデル間で10%のフレームワーク改善を実現し、最初の再試行で抽出エラーを92%削減する。
論文参考訳（メタデータ） (2025-10-08T09:40:30Z)
MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。 MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文参考訳（メタデータ） (2025-08-22T09:47:53Z)
TAI3: Testing Agent Integrity in Interpreting User Intent [17.520166327611594]
LLMエージェントは、自然言語命令を通じてAPIを呼び出すことによって、現実世界のタスクを自動化するために、ますます多くデプロイされている。従来のソフトウェアテストでは、構造化された入力を前提としており、自然言語のあいまいさを扱うには不足している。 LLMエージェントの意図的整合性違反を体系的に発見する,API中心のストレステストフレームワークであるTAI3を紹介する。
論文参考訳（メタデータ） (2025-06-09T08:09:08Z)
Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。 MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。 MeCoは微調整不要で、最小限のコストがかかる。
論文参考訳（メタデータ） (2025-02-18T15:45:01Z)
Learning to Use Tools via Cooperative and Interactive Agents [58.77710337157665]
ツール学習は、外部ツールを使用してユーティリティを拡張するエージェントとして、大きな言語モデル(LLM)を促進する。ツール選択,ツール実行,アクションキャリブレーションの3つの特別なエージェントを個別にコーディネートする,協調型対話型エージェントフレームワークであるConAgentsを提案する。 3つのデータセットに対する実験により、LLMは、ConAgentsを装備した場合、大幅に改善されたベースラインよりも優れた性能を示した。
論文参考訳（メタデータ） (2024-03-05T15:08:16Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。