論文の概要: ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response
- arxiv url: http://arxiv.org/abs/2511.10027v2
- Date: Fri, 14 Nov 2025 19:16:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:22.48452
- Title: ChEmREF: Evaluating Language Model Readiness for Chemical Emergency Response
- Title(参考訳): ChEmREF:化学緊急応答のための言語モデルの準備性の評価
- Authors: Risha Surana, Qinyuan Ye, Swabha Swayamdipta,
- Abstract要約: 本稿では,化学緊急対応評価フレームワーク(ChEmREF)について紹介する。
ChEmREFは、(1)構造化フォームと非構造化フォーム間の化学表現の変換(例:C2H6Oをエタノールに変換する)、(2)緊急応答生成(例:適切な避難距離を推奨)、(3)化学安全性および認証試験からのドメイン知識質問の3つのタスクに分けられる。
最良評価モデルは,非構造化HAZMAT化学表現翻訳で68.0%,LCM判定では52.7%,インシデント応答推奨で68.0%と精度良く一致した。
- 参考スコア(独自算出の注目度): 21.80606497346068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emergency responders managing hazardous material HAZMAT incidents face critical, time-sensitive decisions, manually navigating extensive chemical guidelines. We investigate whether today's language models can assist responders by rapidly and reliably understanding critical information, identifying hazards, and providing recommendations. We introduce the Chemical Emergency Response Evaluation Framework (ChEmREF), a new benchmark comprising questions on 1,035 HAZMAT chemicals from the Emergency Response Guidebook and the PubChem Database. ChEmREF is organized into three tasks: (1) translation of chemical representation between structured and unstructured forms (e.g., converting C2H6O to ethanol), (2) emergency response generation (e.g., recommending appropriate evacuation distances) and (3) domain knowledge question answering from chemical safety and certification exams. Our best evaluated models received an exact match of 68.0% on unstructured HAZMAT chemical representation translation, a LLM Judge score of 52.7% on incident response recommendations, and a multiple-choice accuracy of 63.9% on HAMZAT examinations. These findings suggest that while language models show potential to assist emergency responders in various tasks, they require careful human oversight due to their current limitations.
- Abstract(参考訳): 有害物質HAZMATインシデントを管理する緊急対応者は、広範囲な化学ガイドラインを手動でナビゲートする、クリティカルで時間に敏感な決定に直面している。
我々は,今日の言語モデルが,重要な情報を迅速かつ確実に理解し,ハザードを特定し,レコメンデーションを提供することによって,応答者を支援することができるかどうかを検討する。
ChEmREF(Chemical Emergency Response Evaluation Framework)は、緊急対応ガイドブックとPubChem Databaseから1035個のHAZMAT化学物質に関する質問をまとめた新しいベンチマークである。
ChEmREFは,(1)構造化フォームと非構造化フォーム間の化学表現の変換(例:C2H6Oをエタノールに変換する),(2)緊急応答生成(例:適切な避難距離を推奨),(3)化学安全試験および認証試験からのドメイン知識質問の3つのタスクに分けられる。
評価モデルでは,非構造化HAZMATの化学表現翻訳では68.0%,事故対応推奨では52.7%,HAMZAT検査では63.9%と正確に一致した。
これらの結果から,言語モデルは様々なタスクにおいて緊急対応者を支援する可能性があるが,現状の限界のため注意を要することが示唆された。
関連論文リスト
- ChemOrch: Empowering LLMs with Chemical Intelligence via Synthetic Instructions [52.79349601462865]
ChemOrchは化学的に接地した命令応答対を合成するフレームワークである。
ChemOrchは、生成したタスクに対して、制御可能な多様性と難易度を実現する。
論文 参考訳(メタデータ) (2025-09-20T05:43:58Z) - MolErr2Fix: Benchmarking LLM Trustworthiness in Chemistry via Modular Error Detection, Localization, Explanation, and Revision [22.708008313748824]
LLM(Large Language Models)は、分子科学における潜在的な可能性を示すが、しばしば化学的に不正確な記述を生成する。
これにより、科学的応用における堅牢性と信頼性に関する重要な懸念が持ち上がる。
分子記述における誤り検出と訂正におけるLCMの評価を目的としたMollErr2Fixベンチマークを提案する。
論文 参考訳(メタデータ) (2025-08-26T05:43:45Z) - QCBench: Evaluating Large Language Models on Domain-Specific Quantitative Chemistry [19.804237919102903]
QCBenchは7つの化学サブフィールドにわたる350の計算化学問題からなる定量化学指向のベンチマークである。
それぞれの問題は、ショートカットを防止し、明示的な数値推論を要求するように構成されている。
QCBenchは、計算の弱点のきめ細かい診断を可能にし、モデル固有の制限を明らかにし、将来の改善の基盤となる。
論文 参考訳(メタデータ) (2025-08-03T08:55:42Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning [64.2106664137118]
ChemAgentは,大規模言語モデル(LLM)の性能向上を目的とした,新しいフレームワークである。
化学タスクをサブタスクに分解し、これらのサブタスクを将来のクエリに参照可能な構造化されたコレクションにコンパイルすることで開発される。
新しい問題を提示すると、ChemAgentは、私たちがメモリと呼ぶライブラリから関連する情報を検索し、精査する。
論文 参考訳(メタデータ) (2025-01-11T17:10:30Z) - ChemSafetyBench: Benchmarking LLM Safety on Chemistry Domain [28.205744043861756]
ChemSafetyBenchは、大規模言語モデル(LLM)の正確性と安全性を評価するために設計されたベンチマークである。
ChemSafetyBenchは、化学特性のクエリ、化学利用の合法性の評価、合成法の記述という3つの重要なタスクを含んでいる。
私たちのデータセットには、様々な化学材料にまたがる30万以上のサンプルがあります。
論文 参考訳(メタデータ) (2024-11-23T12:50:33Z) - Text-Augmented Multimodal LLMs for Chemical Reaction Condition Recommendation [38.76977853056086]
Chemma-RCは、タスク固有の対話と条件生成を通じて有効な条件を識別するテキスト拡張マルチモーダルLLMである。
Chemma-RCは、複数のモダリティ(テキストコーパス、反応SMILES、反応グラフを含む)を共有埋め込みモジュールで整列させることで、化学反応の統一的な表現を学習する。
データセットのパフォーマンスベンチマークは、最適な条件を特定する上で高い精度を示し、最先端の手法よりも最大17%改善した。
論文 参考訳(メタデータ) (2024-07-21T12:27:26Z) - Are large language models superhuman chemists? [4.87961182129702]
大規模言語モデル(LLM)は、人間の言語を処理し、明示的に訓練されていないタスクを実行する能力によって、広く関心を集めている。
本稿では,最新のLCMの化学知識と推論能力を評価する自動化フレームワークであるChemBenchを紹介する。
我々は2700以上の質問応答ペアをキュレートし、主要なオープンソースとクローズドソースのLCMを評価し、最良のモデルが最高の化学者より優れていることを発見した。
論文 参考訳(メタデータ) (2024-04-01T20:56:25Z) - ChemMiner: A Large Language Model Agent System for Chemical Literature Data Mining [56.15126714863963]
ChemMinerは、文学から化学データを抽出するエンドツーエンドのフレームワークである。
ChemMinerには、コア参照マッピングのためのテキスト分析エージェント、非テキスト情報抽出のためのマルチモーダルエージェント、データ生成のための合成分析エージェントの3つの特殊エージェントが組み込まれている。
実験の結果,ヒト化学者に匹敵する反応同定率を示すとともに,高い精度,リコール,F1スコアで処理時間を著しく短縮した。
論文 参考訳(メタデータ) (2024-02-20T13:21:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。