論文の概要: PHMForge: A Scenario-Driven Agentic Benchmark for Industrial Asset Lifecycle Maintenance
- arxiv url: http://arxiv.org/abs/2604.01532v1
- Date: Thu, 02 Apr 2026 02:09:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.19197
- Title: PHMForge: A Scenario-Driven Agentic Benchmark for Industrial Asset Lifecycle Maintenance
- Title(参考訳): PHMForge: 産業資産ライフサイクルメンテナンスのためのシナリオ駆動型エージェントベンチマーク
- Authors: Ayan Das, Dhaval Patel,
- Abstract要約: PHMForge は Prognostics and Health Management (PHM) タスクの大規模言語モデル (LLM) エージェントを評価するために特別に設計されたベンチマークである。
当社のベンチマークでは、7つの産業資産クラス(ファンエンジン、ベアリング、電動モーター、ギアボックス、エアエンジン)にまたがる75のシナリオを5つのコアタスクカテゴリでカバーしています。
我々は,2つのMPPサーバに65の専門ツールを構築し,タスク・コメンシュレート・メトリクスを用いた実行ベースの評価器を実装した。
- 参考スコア(独自算出の注目度): 2.532228247215641
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language model (LLM) agents are increasingly deployed for complex tool-orchestration tasks, yet existing benchmarks fail to capture the rigorous demands of industrial domains where incorrect decisions carry significant safety and financial consequences. To address this critical gap, we introduce PHMForge, the first comprehensive benchmark specifically designed to evaluate LLM agents on Prognostics and Health Management (PHM) tasks through realistic interactions with domain-specific MCP servers. Our benchmark encompasses 75 expert-curated scenarios spanning 7 industrial asset classes (turbofan engines, bearings, electric motors, gearboxes, aero-engines) across 5 core task categories: Remaining Useful Life (RUL) Prediction, Fault Classification, Engine Health Analysis, Cost-Benefit Analysis, and Safety/Policy Evaluation. To enable rigorous evaluation, we construct 65 specialized tools across two MCP servers and implement execution-based evaluators with task-commensurate metrics: MAE/RMSE for regression, F1-score for classification, and categorical matching for health assessments. Through extensive evaluation of leading frameworks (ReAct, Cursor Agent, Claude Code) paired with frontier LLMs (Claude Sonnet 4.0, GPT-4o, Granite-3.0-8B), we find that even top-performing configurations achieve only 68\% task completion, with systematic failures in tool orchestration (23\% incorrect sequencing), multi-asset reasoning (14.9 percentage point degradation), and cross-equipment generalization (42.7\% on held-out datasets). We open-source our complete benchmark, including scenario specifications, ground truth templates, tool implementations, and evaluation scripts, to catalyze research in agentic industrial AI.
- Abstract(参考訳): 大規模言語モデル(LLM)エージェントは、複雑なツールオーケストレーションタスクのためにますますデプロイされているが、既存のベンチマークは、誤った決定が重大な安全と経済的結果をもたらす産業領域の厳密な要求を捉えていない。
この重要なギャップに対処するために、我々はPHMForgeを紹介した。PHMForgeは、ドメイン固有のMPPサーバとの現実的なインタラクションを通じて、PHMタスク上のLLMエージェントを評価するために設計された最初の包括的なベンチマークである。
本ベンチマークでは,7つの産業資産クラス(ターボファンエンジン,ベアリング,電動機,ギアボックス,エアロエンジン)にまたがる75の専門計算シナリオを,Remaining Useful Life (RUL) Prediction, Fault Classification, Engine Health Analysis, Cost-Benefit Analysis, Safety/Policy Evaluationの5つのコアタスクカテゴリに分類した。
厳格な評価を可能にするため、2つのMPPサーバに65の専門ツールを構築し、タスク・コメンシュレート・メトリクスを持つ実行ベース評価器を実装し、回帰のためのMAE/RMSE、分類のためのF1スコア、健康評価のためのカテゴリマッチングを実装した。
先進フレームワーク (ReAct, Cursor Agent, Claude Code) とフロンティア LLM (Claude Sonnet 4.0, GPT-4o, Granite-3.0-8B) を組み合わせることで,トップパフォーマンス構成でさえ,ツールオーケストレーションの体系的障害 (23\%不正シーケンス),マルチアセスト推論 (14.9%ポイントの劣化),クロスエクイプメント一般化 (42.7%) といった,68\%のタスク完了を実現していることがわかった。
我々は、エージェント産業AIの研究を促進するために、シナリオ仕様、基礎的な真実テンプレート、ツールの実装、評価スクリプトを含む完全なベンチマークをオープンソースにしました。
関連論文リスト
- DarkPatterns-LLM: A Multi-Layer Benchmark for Detecting Manipulative and Harmful AI Behavior [0.0]
textbfDarkPatterns-LLMは,操作内容の詳細な評価を行うための総合的なベンチマークデータセットと診断フレームワークである。
本フレームワークでは,多階層検出(MGD),多スケールインテント分析(MSIAN),Threat Harmonization Protocol(THP),Deep Contextual Risk Alignment(DCRA)の4層解析パイプラインを実装している。
データセットには、インストラクション-レスポンスペアとエキスパートアノテーションを備えた401の厳密にキュレートされた例が含まれている。
論文 参考訳(メタデータ) (2025-12-27T05:05:46Z) - On Generalization in Agentic Tool Calling: CoreThink Agentic Reasoner and MAVEN Dataset [16.921428284844684]
エージェントツールコール環境間の一般化は、信頼できる推論システムを開発する上で重要な未解決課題である。
本稿では、構造化分解と適応ツールオーケストレーションのための軽量なシンボリック推論層を用いて、大規模言語モデルを強化するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-27T00:58:48Z) - MCP-Universe: Benchmarking Large Language Models with Real-World Model Context Protocol Servers [86.00932417210477]
MCP-Universeは,実世界のMPPサーバとのインタラクションを通じて,現実的かつ困難なタスクにおいてLLMを評価するために設計された,初めての総合ベンチマークである。
私たちのベンチマークでは、ロケーションナビゲーション、リポジトリ管理、財務分析、3Dデザイン、ブラウザ自動化、Web検索という、11の異なるMSPサーバにまたがる6つのコアドメインを網羅しています。
GPT-5 (43.72%) やGrok-4 (33.33%) やClaude-4.0-Sonnet (29.44%) のようなSOTAモデルでさえ、大幅な性能制限がある。
論文 参考訳(メタデータ) (2025-08-20T13:28:58Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - MCPEval: Automatic MCP-based Deep Evaluation for AI Agent Models [76.72220653705679]
我々は、エンドツーエンドタスク生成とインテリジェントエージェントの深い評価を自動化するオープンソースのフレームワークであるMCPEvalを紹介する。
MCPEvalはメトリクスを標準化し、ネイティブエージェントツールとシームレスに統合し、評価パイプラインを構築するための手作業を排除する。
実世界の5つのドメインにまたがる実証的な結果から、ニュアンスのある、ドメイン固有のパフォーマンスを明らかにする効果が示された。
論文 参考訳(メタデータ) (2025-07-17T05:46:27Z) - Model Context Protocol (MCP) at First Glance: Studying the Security and Maintainability of MCP Servers [16.794115541448758]
Anthropicは2024年後半にこのツールエコシステムを標準化するためにModel Context Protocol (MCP)を導入した。
採用にもかかわらず、MPPのAI駆動の非決定論的制御フローは、持続可能性、セキュリティ、保守性に対する新たなリスクをもたらす。
我々は1,899のオープンソースMPPサーバを評価し,その健全性,セキュリティ,保守性を評価した。
論文 参考訳(メタデータ) (2025-06-16T14:26:37Z) - MCP-RADAR: A Multi-Dimensional Benchmark for Evaluating Tool Use Capabilities in Large Language Models [33.250579401886206]
本稿では,モデルコンテキストプロトコル(MCP)フレームワークにおいて,LLM(Large Language Models)の性能を評価するために設計された最初の総合ベンチマークであるMPP-RADARを紹介する。
MCP-RADARは、数学的推論、Web検索、Eメール、カレンダー、ファイル管理、端末操作の6つの領域にまたがる507のタスクからなる挑戦的なデータセットを備えている。
主観的な人的評価やバイナリ成功のメトリクスに依存する従来のベンチマークとは異なり、MPP-RADARは複数のタスク領域にわたる客観的な定量測定を採用する。
論文 参考訳(メタデータ) (2025-05-22T14:02:37Z) - SOPBench: Evaluating Language Agents at Following Standard Operating Procedures and Constraints [59.645885492637845]
SOPBenchは、各サービス固有のSOPコードプログラムを実行可能な関数の有向グラフに変換する評価パイプラインである。
提案手法では,各サービス固有のSOPコードプログラムを実行可能関数の有向グラフに変換し,自然言語SOP記述に基づいてこれらの関数を呼び出しなければならない。
我々は18の先行モデルを評価し、上位モデルでさえタスクが困難であることを示す。
論文 参考訳(メタデータ) (2025-03-11T17:53:02Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。