論文の概要: Benchmark for Planning and Control with Large Language Model Agents: Blocksworld with Model Context Protocol
- arxiv url: http://arxiv.org/abs/2512.03955v1
- Date: Wed, 03 Dec 2025 16:49:14 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:02:41.759698
- Title: Benchmark for Planning and Control with Large Language Model Agents: Blocksworld with Model Context Protocol
- Title(参考訳): 大規模言語モデルエージェントによる計画と制御のためのベンチマーク:モデルコンテキストプロトコルを用いたBlocksworld
- Authors: Niklas Jobs, Luis Miguel Vieira da Silva, Jayanth Somashekaraiah, Maximilian Weigand, David Kube, Felix Gehlhoff,
- Abstract要約: 我々はBlocksworld問題を表す実行可能なシミュレーション環境を備えたベンチマークを導入する。
Model Context Protocol(MCP)を標準化されたツールインターフェースとして統合することで、多様なエージェントアーキテクチャをベンチマークに接続し、評価することができる。
- 参考スコア(独自算出の注目度): 0.19544534628180865
- License:
- Abstract: Industrial automation increasingly requires flexible control strategies that can adapt to changing tasks and environments. Agents based on Large Language Models (LLMs) offer potential for such adaptive planning and execution but lack standardized benchmarks for systematic comparison. We introduce a benchmark with an executable simulation environment representing the Blocksworld problem providing five complexity categories. By integrating the Model Context Protocol (MCP) as a standardized tool interface, diverse agent architectures can be connected to and evaluated against the benchmark without implementation-specific modifications. A single-agent implementation demonstrates the benchmark's applicability, establishing quantitative metrics for comparison of LLM-based planning and execution approaches.
- Abstract(参考訳): 産業の自動化は、タスクや環境の変化に適応できる柔軟な制御戦略をますます必要とします。
LLM(Large Language Models)に基づくエージェントは、このような適応的な計画と実行の可能性を提供するが、体系的な比較のための標準ベンチマークは欠如している。
ここでは,Blocksworld問題を表す実行可能なシミュレーション環境を用いて,5つの複雑性カテゴリを提供するベンチマークを提案する。
Model Context Protocol(MCP)を標準化されたツールインターフェースとして統合することにより、実装固有の変更なしに、多様なエージェントアーキテクチャをベンチマークに接続し、評価することができる。
単一エージェントの実装はベンチマークの適用性を実証し、LCMベースの計画と実行のアプローチの比較のための定量的メトリクスを確立する。
関連論文リスト
- HEAS: Hierarchical Evolutionary Agent Simulation Framework for Cross-Scale Modeling and Multi-Objective Search [4.807104001943257]
階層シミュレーションエージェント(Hierarchical Simulation Agent, HEAS)は、階層化されたエージェントベースのモデリングを進化的最適化とトーナメント評価で統合するPythonフレームワークである。
HEASは、共有コンテキストを読み書きする決定論的レイヤにスケジュールされた軽量プロセス(ストリーム)の階層としてモデルを表現する。
compact APIとCLIは、シングルオブジェクトとマルチオブジェクトの進化をシミュレートし、最適化し、評価します。
論文 参考訳(メタデータ) (2025-08-21T13:35:46Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Adaptive Domain Modeling with Language Models: A Multi-Agent Approach to Task Planning [5.638621244710438]
TAPASは特殊なLLMベースのエージェントを使用して、協調的にドメインモデルを生成し、適応する。
ReAct(Reason+Act)スタイルの実行エージェントは、自然言語の計画翻訳と組み合わせて、動的に生成された計画と現実世界のロボット能力のギャップを埋める。
論文 参考訳(メタデータ) (2025-06-24T13:02:06Z) - BLADE: Benchmark suite for LLM-driven Automated Design and Evolution of iterative optimisation heuristics [2.2485774453793037]
BLADEは、連続的なブラックボックス最適化コンテキストにおいてLLM駆動のAADメソッドをベンチマークするためのフレームワークである。
ベンチマーク問題とインスタンスジェネレータ、特殊化や情報エクスプロイトといった機能重視のテストを目的としたテキスト記述を統合する。
BLADEは、LCM駆動のAADアプローチを体系的に評価する、アウト・オブ・ザ・ボックスのソリューションを提供する。
論文 参考訳(メタデータ) (2025-04-28T18:34:09Z) - Collab: Controlled Decoding using Mixture of Agents for LLM Alignment [90.6117569025754]
人間のフィードバックからの強化学習は、大規模言語モデルを整合させる効果的な手法として現れてきた。
制御された復号化は、再訓練せずに推論時にモデルを整列するメカニズムを提供する。
本稿では,既存の既成のLCMポリシを活用するエージェントベースのデコーディング戦略の混合を提案する。
論文 参考訳(メタデータ) (2025-03-27T17:34:25Z) - REALM-Bench: A Benchmark for Evaluating Multi-Agent Systems on Real-world, Dynamic Planning and Scheduling Tasks [2.1331883629523634]
このスイートは、基本的なものから非常に複雑なものへと進化する14の計画とスケジューリングの問題を含んでいる。
それぞれの問題は、並列計画スレッドの数、依存性間の複雑さ、予期せぬディスラプションの頻度の3つの次元に沿ってスケールすることができる。
このベンチマークは一般公開を目標とし、現実のアプリケーションのためのより適応性があり、堅牢でスケーラブルなAI計画システムの開発を進めることを目指している。
論文 参考訳(メタデータ) (2025-02-26T05:24:22Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - A Modular Framework for Reinforcement Learning Optimal Execution [68.8204255655161]
我々は、最適貿易実行問題への強化学習の適用のためのモジュラーフレームワークを開発する。
このフレームワークは、異なるシミュレーション設定の実装を容易にするために、柔軟性を念頭に設計されている。
論文 参考訳(メタデータ) (2022-08-11T09:40:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。