論文の概要: MANTRA: Synthesizing SMT-Validated Compliance Benchmarks for Tool-Using LLM Agents
- arxiv url: http://arxiv.org/abs/2605.06334v1
- Date: Thu, 07 May 2026 14:26:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.896283
- Title: MANTRA: Synthesizing SMT-Validated Compliance Benchmarks for Tool-Using LLM Agents
- Title(参考訳): MANTRA: ツール利用 LLM エージェントのためのSMT-Validated Compliance Benchmarks の合成
- Authors: Ashwani Anand, Ivi Chatzi, Ritam Raha, Anne-Kathrin Schmuck,
- Abstract要約: MANTRAは、自然言語マニュアルとツールスキーマからマシンチェック可能なコンプライアンスベンチマークを自動的に合成するフレームワークである。
我々は、6つのドメインにまたがる285のタスクを、最小限の人的労力で50ページのマニュアルにスケーリングする新しいベンチマークスイートを構築しました。
- 参考スコア(独自算出の注目度): 0.815557531820863
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Tool-using large language model (LLM) agents are increasingly deployed in settings where their reliable behavior is governed by strict procedural manuals. Ensuring that such agents comply with the rules from these manuals is challenging, as they are typically written for humans in natural language while agent behavior manifests as an execution trace of tool calls. Existing evaluations of LLM agents rely on manually constructed benchmarks or LLM-based judges, which either do not scale or lack reliability for complex, long-horizon manuals. To overcome these limitations, we present MANTRA, a framework for automatically synthesizing machine-checkable compliance benchmarks from natural-language manuals and tool schemas. MANTRA independently generates (i) a symbolic world model capturing procedural dependencies, and (ii) a set of trace-level compliance checks for a given task, and validates their consistency using SMT solving. A structured repair loop resolves inconsistencies, requiring human intervention only as a fallback. %This yields benchmarks that are formally validated. Importantly, MANTRA supports arbitrary domains and long procedural manuals, and provides a tunable notion of task complexity which is utilized to automatically derive challenging tasks accompanying compliance checks. Using MANTRA, we build a new benchmark suite with 285 tasks across 6 domains scaling to 50+ page manuals with minimal human effort. Empirically, we show that the compliance checks are richer with stronger constraint enforcement compared to existing benchmarks. Additionally, the granularity of the checks can be used for debugging the agents' failure modes. These results demonstrate that combining automated benchmark generation with formally grounded validation methods enables scalable and reliable benchmarking of tool-using agents.
- Abstract(参考訳): ツールを使用する大規模言語モデル(LLM)エージェントは、信頼性の高い振る舞いが厳格な手続きマニュアルによって管理されるような環境で、ますますデプロイされる。
エージェントの振る舞いがツールコールの実行トレースとして現れているのに対して、このようなエージェントがこれらのマニュアルの規則に従うことを保証することは、一般的には自然言語で人間のために書かれたものであるため、難しい。
LLMエージェントの既存の評価は、手作業によるベンチマークやLSMベースの判断に頼っている。
これらの制限を克服するために、自然言語マニュアルやツールスキーマから機械チェック可能なコンプライアンスベンチマークを自動的に合成するフレームワークであるMANTRAを提案する。
MANTRAは独立して生成する
一 手続上の依存関係を捉えた象徴的世界モデル
(2) 与えられたタスクに対するトレースレベルのコンプライアンスチェックのセットを作成し、SMT解決を用いて一貫性を検証する。
構造的修復ループは不整合を解消し、フォールバックとしてのみ人間の介入を必要とする。
% 正式に検証されたベンチマークが得られます。
重要なことは、MANTRAは任意のドメインと長い手続きマニュアルをサポートし、コンプライアンスチェックに伴う課題を自動的に引き出すために使用されるタスク複雑性のチューニング可能な概念を提供する。
MANTRAを使って、6つのドメインにまたがる285のタスクからなる新しいベンチマークスイートを構築し、最小限の人的労力で50ページのマニュアルにスケーリングします。
経験的に、コンプライアンスチェックは既存のベンチマークよりも強い制約執行によってリッチであることを示す。
さらに、チェックの粒度はエージェントの障害モードのデバッグに使用することができる。
これらの結果は,自動ベンチマーク生成と公式な根拠付き検証手法を組み合わせることで,ツール使用エージェントのスケーラブルで信頼性の高いベンチマークを可能にすることを実証している。
関連論文リスト
- Agent psychometrics: Task-level performance prediction in agentic coding benchmarks [24.348135523715815]
本稿では,エージェントプログラミング体制に合わせて,個々のタスクにおける成功や失敗を予測する枠組みを提案する。
我々のアプローチは、イシューステートメント、リポジトリコンテキスト、ソリューション、テストケースなど、タスクから抽出された豊富な機能を備えたアイテム応答理論(IRT)を拡張します。
論文 参考訳(メタデータ) (2026-04-01T07:59:59Z) - PACIFIC: a framework for generating benchmarks to check Precise Automatically Checked Instruction Following In Code [1.1164117387254457]
大言語モデル(LLM)ベースのコードアシスタントは、生成AIの強力な応用として登場した。
これらのシステムの主な要件は、ユーザの指示を正確に従う能力である。
PACIFICは,逐次命令追従機能とコードドライラン機能とを厳格に評価するベンチマークを自動的に生成する新しいフレームワークである。
論文 参考訳(メタデータ) (2025-12-11T14:49:56Z) - FABRIC: Framework for Agent-Based Realistic Intelligence Creation [3.940391073007047]
大規模言語モデル(LLM)はエージェントとしてますます多くデプロイされ、目標を分解し、ツールを実行し、動的環境で結果を検証することが期待されている。
本稿では,LLMのみを用いたエージェントデータの統一化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-20T18:20:22Z) - MCPVerse: An Expansive, Real-World Benchmark for Agentic Tool Use [72.53177559476704]
我々はエージェントツールの使用を評価するための実世界のベンチマークであるMCPVerseを紹介する。
MCPVerseは550以上の実世界の実行可能なツールを統合し、140kトークンを超える前例のないアクション空間を作成する。
私たちは最先端のLSMを3つのモード(Oracle、Standard、Max-Scale)でベンチマークしました。
論文 参考訳(メタデータ) (2025-08-22T09:47:53Z) - SI-Agent: An Agentic Framework for Feedback-Driven Generation and Tuning of Human-Readable System Instructions for Large Language Models [0.0]
システムインストラクション(SI)は、大規模言語モデル(LLM)の指針となる。
既存の自動化手法は、人間が読めない「ソフトプロンプト」を頻繁に生成し、解釈しやすさを犠牲にする。
本稿では,人間の読みやすいSIを自動生成し,反復的に洗練する新しいエージェントフレームワークであるSI-Agentを紹介する。
論文 参考訳(メタデータ) (2025-07-03T23:44:50Z) - MAS-ZERO: Designing Multi-Agent Systems with Zero Supervision [76.42361936804313]
自動MAS設計のための自己進化型推論時間フレームワークMAS-ZEROを紹介する。
MAS-ZEROはメタレベルの設計を採用し、各問題インスタンスに適したMAS構成を反復的に生成し、評価し、洗練する。
論文 参考訳(メタデータ) (2025-05-21T00:56:09Z) - TaskBench: Benchmarking Large Language Models for Task Automation [82.2932794189585]
タスク自動化における大規模言語モデル(LLM)の機能を評価するためのフレームワークであるTaskBenchを紹介する。
具体的には、タスクの分解、ツールの選択、パラメータ予測を評価する。
提案手法は, 自動構築と厳密な人的検証を組み合わせることで, 人的評価との整合性を確保する。
論文 参考訳(メタデータ) (2023-11-30T18:02:44Z) - ART: Automatic multi-step reasoning and tool-use for large language
models [105.57550426609396]
大規模言語モデル(LLM)は、数秒とゼロショットの設定で複雑な推論を行うことができる。
各推論ステップは、コアLLM機能を超えて計算をサポートする外部ツールに依存することができる。
プログラムとして中間推論ステップを自動生成するために凍結LDMを使用するフレームワークであるART(Automatic Reasoning and Tool-use)を導入する。
論文 参考訳(メタデータ) (2023-03-16T01:04:45Z) - Small but Mighty: New Benchmarks for Split and Rephrase [18.959219419951083]
Split and Rephraseは、複雑な文をシンプルに書き換えるテキスト単純化タスクである。
広く使われているベンチマークデータセットは、簡単に利用できる構文的手がかりを普遍的に含んでいることがわかった。
単純なルールベースモデルであっても,最先端モデルと同等に動作可能であることを示す。
論文 参考訳(メタデータ) (2020-09-17T23:37:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。