論文の概要: TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments
- arxiv url: http://arxiv.org/abs/2605.04107v1
- Date: Mon, 04 May 2026 15:35:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.442285
- Title: TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments
- Title(参考訳): TSCG:エージェントLDMデプロイメントのための決定論的ツールスキーマコンパイル
- Authors: Furkan Sakizli,
- Abstract要約: 生産エージェントフレームワークは、言語モデルによる解釈ではなく、機械解析用に設計されたフォーマットであるMPPとしてツールスキーマを送信する。
小型モデル(4B-14B)では、このプロトコルのミスマッチが、本番サイズでのツール使用障害の大部分の原因となっている。
本稿では,このミスマッチをAPI境界で解決する決定論的ツールスキーマコンパイラTSCGを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Production agent frameworks (OpenAI Function Calling, Anthropic Tool Use, MCP) transmit tool schemas as JSON, a format designed for machine parsing, not for interpretation by language models. For small models (4B-14B), this protocol mismatch accounts for the majority of tool-use failure at production catalog sizes. We present TSCG, a deterministic tool-schema compiler that resolves this mismatch at the API boundary, converting JSON schemas into token-efficient structured text without model access, fine-tuning, or runtime search. TSCG combines eight composable operators with a formal compression bound (>=51% on well-formed schemas). On TSCG-Agentic-Bench (about 19,000 calls, 12 models, 5 scenarios), TSCG restores Phi-4 14B from 0% to 84.4% accuracy at 20 tools (90.3% at 50 tools) and achieves 108-181% accuracy-retained ratio across three models on BFCL. Format-versus-compression decomposition (R^2=0.88 -> 0.03) establishes representation change as the dominant mechanism. Per-operator isolation across three frontier models reveals three distinct operator-response profiles: operator-hungry (Opus 4.7), operator-sensitive (GPT-5.2), and operator-robust (Sonnet 4), providing per-model deployment guidance. Scaling experiments show accuracy advantages persisting on heavy production MCP schemas (+5.0 pp at about 10,500 input tokens) despite saturation on light synthetic catalogs, with 52-57% token savings throughout. The synthetic benchmark generalizes to real MCP schemas within 0.1 accuracy points. TSCG ships as a 1,200-line zero-dependency TypeScript package.
- Abstract(参考訳): 生産エージェントフレームワーク(OpenAI Function Calling, Anthropic Tool Use, MCP)は、ツールスキーマをJSONとして送信する。
小型モデル(4B-14B)では、このプロトコルのミスマッチが、製品カタログサイズにおけるツール使用障害の大部分の原因となっている。
このミスマッチをAPI境界で解決し、JSONスキーマをモデルアクセス、微調整、実行時検索なしでトークン効率の良い構造化テキストに変換する、決定論的ツールスキーマコンパイラTSCGを提案する。
TSCGは8つの構成可能な演算子と形式的な圧縮バウンド(=51%)を組み合わせる。
TSCG-Agentic-Bench(約19,000コール、12モデル、5シナリオ)では、TSCGは20のツール(50のツールで90.3%)でPhi-4 14Bを0%から84.4%の精度で復元し、BFCLの3つのモデルで108-181%の精度保持比を達成した。
形式逆圧縮分解(R^2=0.88 -> 0.03)は、表現変化を支配的な機構として確立する。
3つのフロンティアモデルにまたがるオペレータごとの分離は、オペレーター・ハングリー(Opus 4.7)、オペレーター・センシティブ(GPT-5.2)、オペレーター・ロバスト(Sonnet 4)の3つの異なるオペレーター・レスポンスプロファイルを示す。
スケーリング実験は、軽量合成カタログの飽和にもかかわらず、重生産のMPPスキーマ(約10,500の入力トークンで+5.0pp)に持続する精度の利点を示し、トークンの保存率は52-57%である。
合成ベンチマークは、0.1の精度ポイントで実際のMCPスキーマに一般化する。
TSCGは1200行のゼロ依存性TypeScriptパッケージとして出荷される。
関連論文リスト
- When Correct Isn't Usable: Improving Structured Output Reliability in Small Language Models [2.064923532131528]
デプロイされた言語モデルは、正しいものとフォーマットに準拠した出力を生成する必要がある。
本稿では,GSM8KとMATHという2つの数学的ベンチマークを用いて,この構造化出力信頼性ギャップについて検討する。
対象モデルへのブラックボックスAPIアクセスのみを必要とする反復的なシステムプロンプトであるAloLabを開発した。
論文 参考訳(メタデータ) (2026-05-04T09:07:44Z) - VAREX: A Benchmark for Multi-Modal Structured Extraction from Documents [1.06378109904813]
VAREXは政府形態からの構造化データ抽出を評価するためのベンチマークである。
ベンチマークは、1,777の文書と1,771のユニークな文書から成っており、3相品質保証を通じて真理を検証している。
結果は、4Bパラメータ以下では、コンプライアンス出力 -- 抽出能力ではなく -- が主要なボトルネックであることを示している。
論文 参考訳(メタデータ) (2026-03-16T11:15:56Z) - Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale [0.0]
大規模言語モデルエージェントは、プログラムインターフェイスを介してシステムを操作するようになっている。
しかし、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。
11のモデル、4のフォーマット、スキーマ10から10,000のテーブルにわたる9,649の実験を調査した。
論文 参考訳(メタデータ) (2026-02-05T08:39:05Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - Schema Lineage Extraction at Scale: Multilingual Pipelines, Composite Evaluation, and Language-Model Benchmarks [3.3705400036304205]
セマンティックドリフト(Semantic drift)は、データとガバナンスを妥協し、テキストからRAGまでのサービスの有用性を損なう。
本稿では,多言語エンタープライズパイプラインスクリプトから細粒度スキーマを自動抽出するフレームワークを提案する。
結果:単一推論トレースを使用した32Bオープンソースモデルは、標準プロンプトの下でGPTシリーズに匹敵するパフォーマンスを達成することができる。
論文 参考訳(メタデータ) (2025-08-10T05:04:32Z) - MonkeyOCR: Document Parsing with a Structure-Recognition-Relation Triplet Paradigm [60.14048367611333]
MonkeyOCRはドキュメント解析のためのビジョン言語モデルである。
SRR(Structure-Recognition-Relation)三重項パラダイムを活用することで、最先端の技術の進歩を図っている。
論文 参考訳(メタデータ) (2025-06-05T16:34:57Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - ToolACE: Winning the Points of LLM Function Calling [139.07157814653638]
ToolACEは、正確で複雑で多様なツール学習データを生成するように設計された自動エージェントパイプラインである。
我々は、合成データに基づいてトレーニングされたモデルが、8Bパラメータだけで、バークレー・ファンクション・カリング・リーダーボード上で最先端のパフォーマンスを達成することを実証した。
論文 参考訳(メタデータ) (2024-09-02T03:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。