論文の概要: Tool-Schema Compression Enables Agentic RAG Under Constrained Context Budgets
- arxiv url: http://arxiv.org/abs/2605.26165v1
- Date: Sun, 24 May 2026 20:52:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.261943
- Title: Tool-Schema Compression Enables Agentic RAG Under Constrained Context Budgets
- Title(参考訳): Tool-Schema Compressionは制約付きコンテキスト予算下でのエージェントRAGを可能にする
- Authors: Furkan Sakizli,
- Abstract要約: 言語モデルに数十から数百のツール定義を装備するエージェントRAGシステムは、重要なリソース衝突に直面します。
1.5B-32Bのローカルモデルにまたがる14のモデルと6,566のAPIコールにまたがる1つのフロンティアモデルを評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Agentic RAG systems that equip language models with dozens to hundreds of tool definitions face a critical resource conflict: tool schemas consume the same context window needed for retrieval-augmented generation. We present the first systematic study of this tool-context trade-off, evaluating 14 models spanning 1.5B-32B local models plus one frontier API model across 6,566 controlled API calls at three context budgets (8K, 16K, 32K) with 28 tool definitions. Applying TSCG conservative-profile compression (44-50% schema token savings), we observe a binary enablement effect: at 8K tokens, JSON-schema tool definitions overflow the context window entirely, yielding near-zero EM (2.6% average), while compressed schemas restore RAG functionality with +20.5 pp average exact-match lift across all eight models (+24.7 pp among the six exhibiting full enablement). At 32K -- where both formats fit -- four of five tested models show delta <= 1 pp, confirming the effect is purely budget-driven. External validation on HotpotQA (50 multi-hop questions) shows +48 pp EM under the same overflow scenario. Frontier scaling tests demonstrate that JSON schemas overflow at ~494 tools while compressed schemas remain operational beyond 800 tools. Our results establish tool-schema compression as a necessary infrastructure layer for agentic RAG in constrained-context deployments. All code, data, and checkpoints are publicly available.
- Abstract(参考訳): 言語モデルに数十から数百のツール定義を装備するエージェントRAGシステムは、重要なリソースの衝突に直面している。
ツール定義を含む3つのコンテキスト予算(8K, 16K, 32K)において,1.5B-32Bのローカルモデルにまたがる14モデルと,6,566のコントロールAPIコールにまたがる1つのフロンティアAPIモデルを評価する。
8Kトークンでは、JSONスキーマツール定義がコンテキストウィンドウを完全にオーバーフローし、ほぼゼロに近いEM(2.6%の平均)が得られます。
32Kでは、両方のフォーマットが適合する -- 5つのテストモデルのうち4つはデルタ <= 1 pp を示し、その効果が純粋に予算駆動であることを確認した。
HotpotQA(50のマルチホップ質問)の外部検証は、同じオーバーフローシナリオ下で+48 pp EMを示す。
最先端のスケーリングテストでは、JSONスキーマが約494のツールでオーバーフローし、圧縮スキーマが800以上のツールで運用されていることが示されている。
この結果から,制約コンテキスト配置におけるエージェントRAGに必要な基盤層として,ツールスキーマ圧縮が確立された。
すべてのコード、データ、チェックポイントが公開されている。
関連論文リスト
- Models Can Model, But Can't Bind: Structured Grounding in Text-to-Optimization [54.749573452394664]
定式化自体が単純である場合でも、インスタンスデータが大きくなるにつれて精度が低下する。
我々は, 数値データを構造化ファイルに外部化する単純な推論時アプローチであるBINDを用いて, モデルがプロンプトプロンプトからではなく, データをバインドする。
我々は,モデルのみをバインディングのみに微調整することで仮説を検証し,3つの構造的に異なる最適化カテゴリにおいて,エンドツーエンドのSFTおよびRLよりも優れていることを示す。
論文 参考訳(メタデータ) (2026-05-20T21:25:41Z) - Template-as-Ontology: Configurable Synthetic Data Infrastructure for Cross-Domain Manufacturing AI Validation [0.0]
1つのPython構成モジュールは、タイムステップ製造シミュレータの仕様として機能する。
5層パイプライン-シミュレート、CDC/Icebergレイクハウス、スタースキーマ、12のパラメータ化されたAIツール-は、因果的に一貫性のあるMES型のデータを生成します。
このフレームワークは、個別の製造AIバリデーションのための再利用可能なデータ層を提供する。
論文 参考訳(メタデータ) (2026-05-11T21:36:05Z) - TSCG: Deterministic Tool-Schema Compilation for Agentic LLM Deployments [0.0]
生産エージェントフレームワークは、言語モデルによる解釈ではなく、機械解析用に設計されたフォーマットであるMPPとしてツールスキーマを送信する。
小型モデル(4B-14B)では、このプロトコルのミスマッチが、本番サイズでのツール使用障害の大部分の原因となっている。
本稿では,このミスマッチをAPI境界で解決する決定論的ツールスキーマコンパイラTSCGを提案する。
論文 参考訳(メタデータ) (2026-05-04T15:35:45Z) - Tool Attention Is All You Need: Dynamic Tool Gating and Lazy Schema Loading for Eliminating the MCP/Tools Tax in Scalable Agentic Workflows [2.2228811750157482]
私たちは、"Attention Is All You Need"パラダイムを一般化するスケーラブルな層メカニズムであるTool Attentionを紹介します。
シミュレーションした120toolの6サーバベンチマークで、サーバ単位のトークン数を実際のMPPデプロイメントの公開監査に校正する。
ツールアテンションはターン当たりのツールトークンを95.0%(47.3k ->2.4k)に減らし、効果的なコンテキスト利用(トークン比の量)を24%から91%に引き上げる。
論文 参考訳(メタデータ) (2026-04-23T16:10:00Z) - Controllable and Verifiable Tool-Use Data Synthesis for Agentic Reinforcement Learning [82.89535601592739]
マルチレベル検証を用いた自己進化型合成により,信頼性の高い基本ツール利用軌跡を生成する2段階パイプラインを提案する。
これらの拡張は、トラクタツール、間接的または曖昧なユーザクエリ、ノイズ、マルチフォーマット、あるいは誤ったツール出力を導入します。
本設計では,標準事例に対する参照マッチングによる報酬の自動計算と,エラー検出などの特別な動作に対する軽量な判断支援検証を実現する。
論文 参考訳(メタデータ) (2026-04-10T18:38:52Z) - Structured Context Engineering for File-Native Agentic Systems: Evaluating Schema Accuracy, Format Effectiveness, and Multi-File Navigation at Scale [0.0]
大規模言語モデルエージェントは、プログラムインターフェイスを介してシステムを操作するようになっている。
しかし、実践者は、これらのエージェントが消費するコンテキストを構造化する方法に関する経験的なガイダンスを欠いている。
11のモデル、4のフォーマット、スキーマ10から10,000のテーブルにわたる9,649の実験を調査した。
論文 参考訳(メタデータ) (2026-02-05T08:39:05Z) - HuggingR$^{4}$: A Progressive Reasoning Framework for Discovering Optimal Model Companions [50.61510609116118]
HuggingR$4$は、Reasoning、Retrieval、Refinement、Reflectionを組み合わせて効率的にモデルを選択する新しいフレームワークである。
作業性率は92.03%、理性率は82.46%に達し、それぞれ26.51%、33.25%を超える。
論文 参考訳(メタデータ) (2025-11-24T03:13:45Z) - AlphaApollo: Orchestrating Foundation Models and Professional Tools into a Self-Evolving System for Deep Agentic Reasoning [110.57865233597762]
自己進化型エージェント推論システムであるAlphaApolloについて述べる。
基礎モデル(FM)における2つのボトルネックに対処することを目的としている。
AlphaApolloは、意図的に検証可能な推論を可能にするために、複数のモデルをプロのツールで編成する。
論文 参考訳(メタデータ) (2025-10-05T15:42:24Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - Tool-Augmented Reward Modeling [58.381678612409]
本稿では,外部環境へのアクセスによるRMの強化により,制約に対処するツール拡張された嗜好モデリング手法であるThemisを提案する。
我々の研究は、外部ツールをRMに統合し、様々な外部ソースとの相互作用を可能にすることを目的としている。
人間の評価では、テミスで訓練されたRLHFはベースラインと比較して平均32%の勝利率を得る。
論文 参考訳(メタデータ) (2023-10-02T09:47:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。