論文の概要: PHM-Bench: A Domain-Specific Benchmarking Framework for Systematic Evaluation of Large Models in Prognostics and Health Management
- arxiv url: http://arxiv.org/abs/2508.02490v1
- Date: Mon, 04 Aug 2025 15:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:22.389075
- Title: PHM-Bench: A Domain-Specific Benchmarking Framework for Systematic Evaluation of Large Models in Prognostics and Health Management
- Title(参考訳): PHM-Bench: 診断と健康管理における大規模モデルの体系的評価のためのドメイン特化ベンチマークフレームワーク
- Authors: Puyu Yang, Laifa Tao, Zijian Huang, Haifei Liu, Wenyan Cao, Hao Ji, Jianan Qiu, Qixuan Huang, Xuanyuan Su, Yuhang Xie, Jun Zhang, Shangyu Li, Chen Lu, Zhixuan Lian,
- Abstract要約: 大規模言語モデル (LLMs) は産業領域で採用されつつあり、PHM (Prognostics and Health Management) の新しい機会を提供している。
既存の評価手法は、しばしば構造的完全性、次元的包括性、評価的粒度に欠ける。
本研究では,PHM指向大規模モデルの3次元評価フレームワークであるPHM-Benchを提案する。
- 参考スコア(独自算出の注目度): 6.847426500806846
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid advancement of generative artificial intelligence, large language models (LLMs) are increasingly adopted in industrial domains, offering new opportunities for Prognostics and Health Management (PHM). These models help address challenges such as high development costs, long deployment cycles, and limited generalizability. However, despite the growing synergy between PHM and LLMs, existing evaluation methodologies often fall short in structural completeness, dimensional comprehensiveness, and evaluation granularity. This hampers the in-depth integration of LLMs into the PHM domain. To address these limitations, this study proposes PHM-Bench, a novel three-dimensional evaluation framework for PHM-oriented large models. Grounded in the triadic structure of fundamental capability, core task, and entire lifecycle, PHM-Bench is tailored to the unique demands of PHM system engineering. It defines multi-level evaluation metrics spanning knowledge comprehension, algorithmic generation, and task optimization. These metrics align with typical PHM tasks, including condition monitoring, fault diagnosis, RUL prediction, and maintenance decision-making. Utilizing both curated case sets and publicly available industrial datasets, our study enables multi-dimensional evaluation of general-purpose and domain-specific models across diverse PHM tasks. PHM-Bench establishes a methodological foundation for large-scale assessment of LLMs in PHM and offers a critical benchmark to guide the transition from general-purpose to PHM-specialized models.
- Abstract(参考訳): 生成人工知能の急速な進歩に伴い、大規模言語モデル(LLM)は産業領域で採用され、診断と健康管理(PHM)の新たな機会を提供している。
これらのモデルは、高い開発コスト、長いデプロイメントサイクル、限られた一般化可能性といった課題に対処するのに役立つ。
しかし, PHMとLLMの相乗効果が増大しているにもかかわらず, 既存の評価手法は構造的完全性, 次元包括性, 評価粒度に乏しいことが多い。
このことは、PHMドメインへのLLMの深い統合を妨げます。
これらの制約に対処するために、PHM指向の大規模モデルのための新しい3次元評価フレームワークであるPHM-Benchを提案する。
PHM-Benchは、基本的な能力、コアタスク、ライフサイクル全体の三進的な構造に基づいており、PHMシステムエンジニアリングのユニークな要求に合わせている。
知識理解、アルゴリズム生成、タスク最適化にまたがる多段階評価指標を定義する。
これらの指標は、条件監視、障害診断、RUL予測、メンテナンス決定など、典型的なPHMタスクと一致している。
本研究は,多種多様なPHMタスクを対象とした汎用モデルとドメイン固有モデルの多次元評価を可能にする。
PHM-Benchは、PHMにおけるLLMの大規模評価のための方法論基盤を確立し、汎用モデルからPHM特化モデルへの移行を導くための重要なベンチマークを提供する。
関連論文リスト
- MMCircuitEval: A Comprehensive Multimodal Circuit-Focused Benchmark for Evaluating LLMs [25.945493464645548]
電子設計自動化(EDA)における自動化と強化のための有望な機会を提供するマルチモーダル大言語モデル(MLLM)
MMCircuitEvalは,多種多様なEDAタスク間のMLLM性能を評価するために設計された,最初のマルチモーダルベンチマークである。
MMCircuitEvalは、重要なEDAステージにまたがるデジタル回路とアナログ回路にまたがる3614の精巧にキュレートされた質問応答(QA)ペアから構成される。
論文 参考訳(メタデータ) (2025-07-20T05:46:32Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - Benchmarking Spatiotemporal Reasoning in LLMs and Reasoning Models: Capabilities and Challenges [4.668749313973097]
本稿では,Large Language Models (LLMs) とLarge Reasoning Models (LRMs) を3段階の推論複雑性で体系的に評価する。
モデルが直接、あるいはPython Code Interpreterによって応答する26の課題をキュレートします。
LRMは、様々な難易度を持つタスク間で堅牢なパフォーマンスを示し、しばしば従来の第一原理に基づく手法と競合する。
論文 参考訳(メタデータ) (2025-05-16T18:32:35Z) - Computational Reasoning of Large Language Models [51.629694188014064]
textbfTuring Machine Benchは,Large Language Models(LLM)による推論プロセスの実行能力を評価するベンチマークである。
TMBenchには、自己完結型および知識に依存しない推論、最小主義的な多段階構造、制御可能な難易度、チューリングマシンに基づく理論的基礎の4つの重要な特徴が組み込まれている。
論文 参考訳(メタデータ) (2025-04-29T13:52:47Z) - PALATE: Peculiar Application of the Law of Total Expectation to Enhance the Evaluation of Deep Generative Models [0.5499796332553708]
深層生成モデル(DGM)は機械学習の分野でパラダイムシフトを引き起こしている。
これらのモデルに対する包括的評価は、生成したサンプルの忠実さ、多様性、新規性の間の三分法を考慮に入れている。
本稿では,既存の指標の限界に対処するDGMの評価を新たに強化したPALATEを提案する。
論文 参考訳(メタデータ) (2025-03-24T09:06:45Z) - A Survey on Multimodal Benchmarks: In the Era of Large AI Models [13.299775710527962]
MLLM(Multimodal Large Language Models)は、人工知能に大きな進歩をもたらした。
この調査は、4つのコアドメイン(理解、推論、生成、アプリケーション)にわたるMLLMを評価する211のベンチマークを体系的にレビューする。
論文 参考訳(メタデータ) (2024-09-21T15:22:26Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - LMMs-Eval: Reality Check on the Evaluation of Large Multimodal Models [71.8065384742686]
LMMS-EVALは50以上のタスクと10以上のモデルを持つ統一的で標準化されたマルチモーダルベンチマークフレームワークである。
LMMS-EVAL LITEは、カバー範囲と効率の両方を重視したプルーニング評価ツールキットである。
マルチモーダルなLIVEBENCHは、ニュースやオンラインフォーラムを継続的に更新し、野生におけるモデルの一般化能力を評価する。
論文 参考訳(メタデータ) (2024-07-17T17:51:53Z) - An Outline of Prognostics and Health Management Large Model: Concepts, Paradigms, and Challenges [14.154067767508606]
予後と健康管理(PHM)は、航空宇宙、製造、海洋、鉄道、エネルギーなどにおいて広く採用されている。
PHMの開発は、一般化、解釈、検証能力といったボトルネックによって制約されている。
本稿では,PHMとLarge Modelを統合したPHM-LM(Prognosis and Health Management Large Model)の新たな概念と3つのパラダイムを提案する。
論文 参考訳(メタデータ) (2024-07-01T09:37:00Z) - GenBench: A Benchmarking Suite for Systematic Evaluation of Genomic Foundation Models [56.63218531256961]
我々はGenomic Foundation Modelsの有効性を評価するためのベンチマークスイートであるGenBenchを紹介する。
GenBenchはモジュラーで拡張可能なフレームワークを提供し、様々な最先端の方法論をカプセル化している。
本稿では,タスク固有性能におけるモデルアーキテクチャとデータセット特性の相互作用のニュアンス解析を行う。
論文 参考訳(メタデータ) (2024-06-01T08:01:05Z) - Geometric Deep Learning for Structure-Based Drug Design: A Survey [83.87489798671155]
構造に基づく薬物設計(SBDD)は、タンパク質の3次元幾何学を利用して、潜在的な薬物候補を特定する。
近年の幾何学的深層学習の進歩は、3次元幾何学的データを効果的に統合・処理し、この分野を前進させてきた。
論文 参考訳(メタデータ) (2023-06-20T14:21:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。