論文の概要: ToolGate: Contract-Grounded and Verified Tool Execution for LLMs
- arxiv url: http://arxiv.org/abs/2601.04688v1
- Date: Thu, 08 Jan 2026 07:56:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.089397
- Title: ToolGate: Contract-Grounded and Verified Tool Execution for LLMs
- Title(参考訳): ToolGate: LLMの契約付き検証ツール実行
- Authors: Yanming Liu, Xinyue Peng, Jiannan Cao, Xinyi Wang, Songhang Deng, Jintao Chen, Jianwei Yin, Xuhong Zhang,
- Abstract要約: 外部ツールを付加した大規模言語モデル(LLM)は、複雑な推論タスクにおいて顕著な機能を示した。
既存のフレームワークは、いつツールが呼び出されるか、結果がコミットされるべきかどうかを決定するために、自然言語の推論に大きく依存している。
textbfToolGateは、論理的安全性保証と検証可能な状態進化を提供するフォワード実行フレームワークである。
- 参考スコア(独自算出の注目度): 35.000785781403515
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) augmented with external tools have demonstrated remarkable capabilities in complex reasoning tasks. However, existing frameworks rely heavily on natural language reasoning to determine when tools can be invoked and whether their results should be committed, lacking formal guarantees for logical safety and verifiability. We present \textbf{ToolGate}, a forward execution framework that provides logical safety guarantees and verifiable state evolution for LLM tool calling. ToolGate maintains an explicit symbolic state space as a typed key-value mapping representing trusted world information throughout the reasoning process. Each tool is formalized as a Hoare-style contract consisting of a precondition and a postcondition, where the precondition gates tool invocation by checking whether the current state satisfies the required conditions, and the postcondition determines whether the tool's result can be committed to update the state through runtime verification. Our approach guarantees that the symbolic state evolves only through verified tool executions, preventing invalid or hallucinated results from corrupting the world representation. Experimental validation demonstrates that ToolGate significantly improves the reliability and verifiability of tool-augmented LLM systems while maintaining competitive performance on complex multi-step reasoning tasks. This work establishes a foundation for building more trustworthy and debuggable AI systems that integrate language models with external tools.
- Abstract(参考訳): 外部ツールを付加した大規模言語モデル(LLM)は、複雑な推論タスクにおいて顕著な機能を示した。
しかしながら、既存のフレームワークは、いつツールが呼び出されるか、結果がコミットされるべきかどうかを判断するために、自然言語の推論に大きく依存しており、論理的安全性と検証性に関する正式な保証が欠如している。
LLMツール呼び出しに対する論理的安全性保証と検証可能な状態進化を提供する,フォワード実行フレームワークである‘textbf{ToolGate} を提示する。
ToolGateは、推論プロセスを通して信頼できる世界情報を表す型付きキー-値マッピングとして、明示的なシンボル状態空間を維持している。
各ツールは、プレコンディションとポストコンディションからなるホアスタイルの契約として形式化され、そこでは、現在の状態が要求された条件を満たすかどうかを確認してプレコンディションゲートツールの呼び出しを行い、後コンディションは、ツールの結果が実行時検証によって状態を更新できるかどうかを判断する。
我々のアプローチは、シンボル状態が検証されたツールの実行によってのみ進化することを保証し、無効あるいは幻覚的な結果が世界表現を損なうのを防ぐ。
実験による検証により,ToolGate は複雑な多段階推論タスクにおける競合性能を維持しつつ,ツール拡張 LLM システムの信頼性と妥当性を著しく向上することが示された。
この作業は、言語モデルと外部ツールを統合する、より信頼性が高くデバッグ可能なAIシステムを構築するための基盤を確立する。
関連論文リスト
- FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - Improving Large Language Models Function Calling and Interpretability via Guided-Structured Templates [56.73907811047611]
大規模言語モデル(LLM)は強力な推論とツール使用能力を示している。
LLMは、誤ったパラメータ化、悪いツールの選択、ユーザーの意図の誤解釈によって、現実世界のツールインタラクションで失敗することが多い。
我々は、構造化推論テンプレートを利用して、関数呼び出しを生成するためのより故意なステップバイステップ命令を通してLCMをガイドするカリキュラムに着想を得たフレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-22T17:55:14Z) - State and Memory is All You Need for Robust and Reliable AI Agents [29.259008600842517]
大規模言語モデル(LLM)は、自然言語の理解と生成において強力な進歩を実現している。
しかし、複雑な現実世界の科学への応用は、記憶、計画、ツール統合の課題によって制限されている。
本稿では、LLMベースのエージェントが自律的に計画し、推論し、堅牢で信頼性の高いドメイン固有タスク実行を実現することができるモジュール型エージェントフレームワークであるSciBORGを紹介する。
論文 参考訳(メタデータ) (2025-06-30T02:02:35Z) - Training Language Models to Generate Quality Code with Program Analysis Feedback [66.0854002147103]
大規模言語モデル(LLM)によるコード生成は、ますます本番環境で採用されているが、コード品質の保証には失敗している。
実運用品質のコードを生成するためにLLMにインセンティブを与える強化学習フレームワークであるREALを提案する。
論文 参考訳(メタデータ) (2025-05-28T17:57:47Z) - Adaptive Tool Use in Large Language Models with Meta-Cognition Trigger [49.81945268343162]
我々は,外部ツール利用のための適応型意思決定戦略であるMeCoを提案する。
MeCoは、表現空間内の高レベル認知信号をキャプチャすることで、メタ認知スコアを定量化する。
MeCoは微調整不要で、最小限のコストがかかる。
論文 参考訳(メタデータ) (2025-02-18T15:45:01Z) - ToolCoder: A Systematic Code-Empowered Tool Learning Framework for Large Language Models [81.12673534903979]
ツール学習は、大規模な言語モデル(LLM)にとって、外部ツールとのインタラクションを通じて、複雑な現実世界のタスクを解決する重要な機能として登場した。
本稿では,ツール学習をコード生成タスクとして再編成する新しいフレームワークであるToolCoderを提案する。
論文 参考訳(メタデータ) (2025-02-17T03:42:28Z) - Reducing Tool Hallucination via Reliability Alignment [31.761771794788462]
大きな言語モデル(LLM)は、言語生成を超えて、外部ツールと対話し、自動化と現実世界のアプリケーションを可能にする機能を拡張した。
モデルが不適切なツールを選択するか、それらを誤用するツール幻覚は、誤ったタスクの実行、計算コストの増大、システムの信頼性の低下につながる重要な課題を引き起こす。
RelyToolBenchを導入し、特殊なテストケースと新しいメトリクスを統合し、幻覚を意識したタスクの成功と効率を評価する。
最後に、信頼性アライメントフレームワークであるRelignを提案する。このフレームワークは、ツール使用のアクション空間を拡張して、不決定なアクションを含むようにし、LCMがツールの使用を遅らせたり、明確化を求めたり、ツールの選択を調整することを可能にする。
論文 参考訳(メタデータ) (2024-12-05T13:10:54Z) - Can Tool-augmented Large Language Models be Aware of Incomplete Conditions? [33.74511128798095]
本研究では,大規模言語モデルが不完全条件を識別し,いつツールの使用を控えるかを適切に判断できるかどうかを検討する。
本稿では,情報の有効性とツールの有効性を評価するために,モデルに明示的に指示する新しいプロンプトベースの推論手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T06:28:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。