論文の概要: LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements
- arxiv url: http://arxiv.org/abs/2505.22959v1
- Date: Thu, 29 May 2025 01:02:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.59681
- Title: LLM-based HSE Compliance Assessment: Benchmark, Performance, and Advancements
- Title(参考訳): LLMベースのHSEコンプライアンスアセスメント:ベンチマーク、パフォーマンス、進歩
- Authors: Jianwei Wang, Mengqi Wang, Yinsi Zhou, Zhenchang Xing, Qing Liu, Xiwei Xu, Wenjie Zhang, Liming Zhu,
- Abstract要約: HSE-Benchは、大規模言語モデルのHSEコンプライアンス評価能力を評価するために設計された最初のベンチマークデータセットである。
規則、裁判、安全試験、フィールドワークビデオから引き出された1000以上の手作業による質問で構成されている。
我々は,基礎モデル,推論モデル,マルチモーダル視覚モデルなど,異なるプロンプト戦略と10以上のLLMの評価を行う。
- 参考スコア(独自算出の注目度): 26.88382777632026
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Health, Safety, and Environment (HSE) compliance assessment demands dynamic real-time decision-making under complicated regulations and complex human-machine-environment interactions. While large language models (LLMs) hold significant potential for decision intelligence and contextual dialogue, their capacity for domain-specific knowledge in HSE and structured legal reasoning remains underexplored. We introduce HSE-Bench, the first benchmark dataset designed to evaluate the HSE compliance assessment capabilities of LLM. HSE-Bench comprises over 1,000 manually curated questions drawn from regulations, court cases, safety exams, and fieldwork videos, and integrates a reasoning flow based on Issue spotting, rule Recall, rule Application, and rule Conclusion (IRAC) to assess the holistic reasoning pipeline. We conduct extensive evaluations on different prompting strategies and more than 10 LLMs, including foundation models, reasoning models and multimodal vision models. The results show that, although current LLMs achieve good performance, their capabilities largely rely on semantic matching rather than principled reasoning grounded in the underlying HSE compliance context. Moreover, their native reasoning trace lacks the systematic legal reasoning required for rigorous HSE compliance assessment. To alleviate these, we propose a new prompting technique, Reasoning of Expert (RoE), which guides LLMs to simulate the reasoning process of different experts for compliance assessment and reach a more accurate unified decision. We hope our study highlights reasoning gaps in LLMs for HSE compliance and inspires further research on related tasks.
- Abstract(参考訳): HSE(Health, Safety, and Environment)のコンプライアンスアセスメントは、複雑な規制と複雑な人間-機械-環境相互作用の下での動的リアルタイム意思決定を要求する。
大規模言語モデル(LLM)は、決定知性や文脈対話に有意な可能性を秘めているが、HSEにおけるドメイン固有の知識と構造化された法的推論の能力はいまだ探索されていない。
LLMのHSEコンプライアンス評価機能を評価するために設計された最初のベンチマークデータセットであるHSE-Benchを紹介する。
HSE-Benchは、規則、裁判、安全試験、フィールドワークビデオから引き出された1000以上の手作業による質問で構成され、問題スポッティング、ルールリコール、ルールアプリケーション、ルールコンクルージョン(IRAC)に基づいて推論フローを統合し、全体的推論パイプラインを評価する。
基礎モデル,推論モデル,マルチモーダル視覚モデルなど,異なるプロンプト戦略と10以上のLLMについて広範な評価を行う。
その結果、現在のLLMは優れた性能を発揮するが、その能力は、基礎となるHSEコンプライアンスコンテキストに根ざした原則的推論よりも、意味マッチングに大きく依存していることがわかった。
さらに、彼らのネイティブな推論トレースは、厳格なHSEコンプライアンスアセスメントに必要な体系的な法的推論を欠いている。
これらの課題を解決するため,LLMを指導する新たなプロンプト手法であるReasoning of Expert (RoE)を提案し,コンプライアンスアセスメントのための異なる専門家の推論プロセスをシミュレートし,より正確な統一的意思決定を実現する。
我々の研究は、HSE準拠のためのLLMの推論ギャップを強調し、関連するタスクについてさらなる研究を促すことを願っている。
関連論文リスト
- LLM-Evaluation Tropes: Perspectives on the Validity of LLM-Evaluations [29.031539043555362]
大規模言語モデル (LLM) は情報システムを評価するためにますます使われている。
近年の研究では、LLMに基づく評価は人間の判断とよく一致することが示唆されている。
本稿では,LCM評価者が誤って成功を示すシナリオについて検討する。
論文 参考訳(メタデータ) (2025-04-27T02:14:21Z) - IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction [3.961279440272764]
対話型環境下での大規模言語モデルのルール学習能力を評価するためにRULEARNを導入する。
誘導, 誘引, アブダクションのプロセスを統合する新しい推論フレームワークであるIDEAを提案する。
5つの代表的なLCMを含むIDEAフレームワークの評価は,ベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-08-19T23:37:07Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Inadequacies of Large Language Model Benchmarks in the Era of Generative Artificial Intelligence [5.147767778946168]
我々は、23の最先端のLarge Language Models (LLMs)ベンチマークを批判的に評価する。
私たちの研究は、バイアス、真の推論、適応性、実装の不整合、エンジニアリングの複雑さ、多様性、文化的およびイデオロギー規範の見落としなど、重大な制限を明らかにしました。
論文 参考訳(メタデータ) (2024-02-15T11:08:10Z) - K-Level Reasoning: Establishing Higher Order Beliefs in Large Language Models for Strategic Reasoning [76.3114831562989]
マルチエージェント環境で戦略を動的に適応させるためには、LLM(Large Language Model)エージェントが必要である。
我々は,「K-Level Reasoning with Large Language Models (K-R)」という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-02T16:07:05Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。