論文の概要: Agentified Assessment of Logical Reasoning Agents
- arxiv url: http://arxiv.org/abs/2603.02788v2
- Date: Fri, 06 Mar 2026 20:38:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 12:41:26.122074
- Title: Agentified Assessment of Logical Reasoning Agents
- Title(参考訳): 論理的推論エージェントのエージェント評価
- Authors: Zhiyu Ni, Yifeng Xiao, Zheng Liang,
- Abstract要約: エージェント化された評価に基づいて、評価エージェントを使用してタスクを発行し、実行予算を強制し、アウトプットを解析し、構造化された障害タイプを記録します。
ケーススタディでは,FOLIOの一階述語論理(FOL)推論のための自動形式化エージェントのベンチマークを行った。
自動形式化剤は、アセスメントプロトコルの下で86.70%の精度を達成し、チェーンオブソートベースライン(73.89%)を上回っている。
- 参考スコア(独自算出の注目度): 3.5548629490839594
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a framework for evaluating and benchmarking logical reasoning agents when assessment itself must be reproducible, auditable, and robust to execution failures. Building on agentified assessment, we use an assessor agent to issue tasks, enforce execution budgets, parse outputs, and record structured failure types, while the agent under test only needs to expose a standardized agent-to-agent interface. As a case study, we benchmark an auto-formalization agent for first-order logic (FOL) reasoning on a solver-verified and repaired split of FOLIO. The agent translates natural language premises and conclusions into executable Z3Py programs and employs satisfiability modulo theories (SMT) solving to determine logical entailment. On the cleaned FOLIO validation set, the auto-formalization agent achieves 86.70% accuracy under the assessor protocol, outperforming a chain-of-thought baseline (73.89%).
- Abstract(参考訳): 評価自体が再現可能で、監査可能で、実行障害に対して堅牢でなければならない場合に、論理推論エージェントの評価とベンチマークを行うためのフレームワークを提案する。
エージェント評価に基づいて、評価エージェントを使用してタスクを発行し、実行予算を強制し、アウトプットを解析し、構造化された障害タイプを記録する。
ケーススタディでは,FOLIOの一階述語論理(FOL)推論のための自動形式化エージェントのベンチマークを行った。
エージェントは自然言語の前提と結論を実行可能なZ3Pyプログラムに変換し、論理的含意を決定するために満足度変調理論(SMT)を用いる。
クリーニングされたFOLIO検証セットでは、自動形式化エージェントが評価プロトコルの下で86.70%の精度を達成し、チェーンオブソートベースライン(73.89%)を上回っている。
関連論文リスト
- Agentic Code Reasoning [6.246212222645163]
エージェントが明示的な前提を構築し、実行経路をトレースし、公式な結論を導出することを要求する構造化されたプロンプト手法である半形式推論を導入する。
我々は,3つのタスク(パッチ等価性検証,フォールトローカライゼーション,コード質問応答)を評価し,半形式的推論が常に精度を向上することを示す。
これらの結果は、構造化されたエージェント推論が、実行せずに意味のある意味的コード解析を可能にすることを示す。
論文 参考訳(メタデータ) (2026-03-02T14:17:06Z) - The Necessity of a Unified Framework for LLM-Based Agent Evaluation [46.631678638677386]
汎用エージェントは基本的な進歩を見てきた。
これらのエージェントを評価すると、静的QAベンチマークと区別する固有の課題が提示される。
エージェント評価の厳格な向上には統一評価フレームワークが不可欠である。
論文 参考訳(メタデータ) (2026-02-03T08:18:37Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - ReForm: Reflective Autoformalization with Prospective Bounded Sequence Optimization [73.0780809974414]
本稿では,意味的整合性評価を自己形式化プロセスに統合する反射的自己形式化手法を提案する。
これにより、モデルが形式的なステートメントを反復的に生成し、セマンティックな忠実さを評価し、自己修正された特定エラーを発生させることができる。
実験の結果、ReFormは最強のベースラインに対して平均22.6ポイントの改善を達成した。
論文 参考訳(メタデータ) (2025-10-28T16:22:54Z) - Alita-G: Self-Evolving Generative Agent for Agent Generation [54.49365835457433]
汎用エージェントをドメインエキスパートに変換するフレームワークであるALITA-Gを提案する。
このフレームワークでは、ジェネラリストエージェントが対象ドメインタスクのキュレートされたスイートを実行する。
計算コストを削減しながら、大きな利益を得ることができます。
論文 参考訳(メタデータ) (2025-10-27T17:59:14Z) - What Is Your Agent's GPA? A Framework for Evaluating Agent Goal-Plan-Action Alignment [3.5583478152586756]
Agent GPAは、目標を設定し、計画を立て、アクションを実行するエージェントの運用ループに基づいた評価パラダイムである。
フレームワークには、ゴールフルフィルメント、論理一貫性、実行効率、プラン品質、プラン順守の5つの評価指標が含まれている。
論文 参考訳(メタデータ) (2025-10-09T22:40:19Z) - Towards Verified Code Reasoning by LLMs [6.973151264926856]
本稿では,コード推論エージェントの回答を自動的に検証する手法について述べる。
本手法は, エージェントの応答の形式的表現を抽出し, その後, 形式的検証とプログラム解析ツールを用いて構成する。
論文 参考訳(メタデータ) (2025-09-30T17:17:51Z) - VulAgent: Hypothesis-Validation based Multi-Agent Vulnerability Detection [55.957275374847484]
VulAgentは仮説検証に基づくマルチエージェント脆弱性検出フレームワークである。
セマンティクスに敏感なマルチビュー検出パイプラインを実装しており、それぞれが特定の分析の観点から一致している。
平均して、VulAgentは全体的な精度を6.6%改善し、脆弱性のある固定されたコードペアの正確な識別率を最大450%向上させ、偽陽性率を約36%削減する。
論文 参考訳(メタデータ) (2025-09-15T02:25:38Z) - Establishing Best Practices for Building Rigorous Agentic Benchmarks [94.69724201080155]
多くのエージェントベンチマークがタスク設定や報酬設計に問題があることを示す。
このような問題は、エージェントのパフォーマンスを最大100%相対的に過小評価することにつながる可能性がある。
我々はベンチマーク構築経験から要約したガイドラインの集合であるAgentic Benchmark Checklist (ABC)を紹介した。
論文 参考訳(メタデータ) (2025-07-03T17:35:31Z) - VerifiAgent: a Unified Verification Agent in Language Model Reasoning [10.227089771963943]
本稿では,メタ検証とツールベース適応検証の2つのレベルを統合した統合検証エージェントを提案する。
VerifiAgentは推論型に基づいて適切な検証ツールを自律的に選択する。
推論スケーリングに効果的に適用でき、より少ないサンプルとコストでより良い結果が得られる。
論文 参考訳(メタデータ) (2025-04-01T04:05:03Z) - Agent-as-a-Judge: Evaluate Agents with Agents [61.33974108405561]
本稿ではエージェント・アズ・ア・ジャッジ(Agent-as-a-Judge)フレームワークを紹介し,エージェント・システムを用いてエージェント・システムの評価を行う。
これはLLM-as-a-Judgeフレームワークの有機的拡張であり、タスク解決プロセス全体の中間フィードバックを可能にするエージェント的特徴を取り入れている。
55のリアルな自動化AI開発タスクのベンチマークであるDevAIを紹介します。
論文 参考訳(メタデータ) (2024-10-14T17:57:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。