論文の概要: Evaluating Hydro-Science and Engineering Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2512.03672v1
- Date: Wed, 03 Dec 2025 11:01:40 GMT
- ステータス: 情報取得中
- システム内更新日: 2025-12-04 12:09:03.279153
- Title: Evaluating Hydro-Science and Engineering Knowledge of Large Language Models
- Title(参考訳): 大規模言語モデルの水文科学と工学的知識の評価
- Authors: Shiruo Hu, Wenbo Shan, Yingjia Li, Zhiqi Wan, Xinpeng Yu, Yunjia Qi, Haotian Xia, Yang Xiao, Dingxiao Liu, Jiaru Wang, Chenxu Gong, Ruixi Zhang, Shuyue Wu, Shibo Cui, Chee Hui Lai, Wei Luo, Yubin He, Bin Xu, Jianshi Zhao,
- Abstract要約: ハイドロ・サイエンス・アンド・エンジニアリング(Hydro-Science and Engineering、Hydro-SE)は、人間の水供給を確保し、クリーンな水力発電を行い、洪水や干ばつによる災害を緩和する、重要かつ非置換可能なドメインである。
大規模言語モデル (LLM) の急速な進歩により,Hydro-SE ドメインにおけるその潜在的な応用が研究されている。
4000の質問を含むHydro-SE LLM評価ベンチマーク(Hydro-SE Bench)を提案する。
- 参考スコア(独自算出の注目度): 10.793729422124548
- License:
- Abstract: Hydro-Science and Engineering (Hydro-SE) is a critical and irreplaceable domain that secures human water supply, generates clean hydropower energy, and mitigates flood and drought disasters. Featuring multiple engineering objectives, Hydro-SE is an inherently interdisciplinary domain that integrates scientific knowledge with engineering expertise. This integration necessitates extensive expert collaboration in decision-making, which poses difficulties for intelligence. With the rapid advancement of large language models (LLMs), their potential application in the Hydro-SE domain is being increasingly explored. However, the knowledge and application abilities of LLMs in Hydro-SE have not been sufficiently evaluated. To address this issue, we propose the Hydro-SE LLM evaluation benchmark (Hydro-SE Bench), which contains 4,000 multiple-choice questions. Hydro-SE Bench covers nine subfields and enables evaluation of LLMs in aspects of basic conceptual knowledge, engineering application ability, and reasoning and calculation ability. The evaluation results on Hydro-SE Bench show that the accuracy values vary among 0.74 to 0.80 for commercial LLMs, and among 0.41 to 0.68 for small-parameter LLMs. While LLMs perform well in subfields closely related to natural and physical sciences, they struggle with domain-specific knowledge such as industry standards and hydraulic structures. Model scaling mainly improves reasoning and calculation abilities, but there is still great potential for LLMs to better handle problems in practical engineering application. This study highlights the strengths and weaknesses of LLMs for Hydro-SE tasks, providing model developers with clear training targets and Hydro-SE researchers with practical guidance for applying LLMs.
- Abstract(参考訳): ハイドロ・サイエンス・アンド・エンジニアリング(Hydro-Science and Engineering、Hydro-SE)は、人間の水供給を確保し、クリーンな水力発電を行い、洪水や干ばつによる災害を緩和する、重要かつ非置換可能なドメインである。
複数の工学的目的があるため、Hydro-SEは本質的に学際的なドメインであり、科学知識と工学の専門知識を統合する。
この統合は、意思決定において広範な専門家の協力を必要とし、知性に困難をもたらす。
大規模言語モデル (LLM) の急速な進歩により,Hydro-SE ドメインにおけるその潜在的な応用が研究されている。
しかし, LLMの知識と応用能力は十分に評価されていない。
この問題に対処するため,4000の質問を含むHydro-SE LLM評価ベンチマーク(Hydro-SE Bench)を提案する。
Hydro-SE Benchは9つのサブフィールドをカバーし、基本的な概念知識、工学的応用能力、推論と計算能力の面でLCMの評価を可能にする。
その結果, 市販LLMでは0.74~0.80, 小型LLMでは0.41~0.68に, 精度は0.74~0.80に変化した。
LLMは自然科学や物理科学と密接な関係を持つサブフィールドでよく機能するが、業界標準や水理構造といったドメイン固有の知識に苦しむ。
モデルスケーリングは主に推論と計算能力を改善するが、LLMが実用工学的な応用において問題に対処する大きな可能性を秘めている。
本研究は,LLMの強みと弱さを強調し,モデル開発者が明確なトレーニング目標を,Hydro-SE研究者がLLMを適用するための実践的ガイダンスを提供する。
関連論文リスト
- Identifying Trustworthiness Challenges in Deep Learning Models for Continental-Scale Water Quality Prediction [69.38041171537573]
水質は環境の持続可能性、生態系の回復力、公衆衛生に基礎を置いている。
ディープラーニングは、大規模な水質予測と科学的洞察生成のための変革的なポテンシャルを提供する。
汚染緩和や資源配分等、高額な運用上の意思決定に広く採用されていることは、未解決の信頼性の課題によって防止されている。
論文 参考訳(メタデータ) (2025-03-13T01:50:50Z) - Llamarine: Open-source Maritime Industry-specific Large Language Model [0.4215938932388722]
Llamarineは,海洋航法に特化して設計された,最初のオープンソースのLarge Language Model (LLM) である。
Llamarine 1.0は、海事教科書、研究出版物、ウィキペディアのウェブテキストを含む高品質なコーパスの訓練と微調整を継続して開発されている。
主な貢献は、(a)権威源からの総合的な海洋データセットのキュレーション、モデルの知識ベースにおける深度と信頼性を確保すること、(b)汎用LSMよりも高精度で複雑な航法課題を推論できる基礎モデルの開発、(c)ベンチマークの作成である。
論文 参考訳(メタデータ) (2025-02-28T21:39:22Z) - AtmosSci-Bench: Evaluating the Recent Advance of Large Language Model for Atmospheric Science [9.757412158154514]
大気科学問題の5つの中核カテゴリにわたる大規模言語モデル(LLM)を評価するために設計された新しいベンチマークを提案する。
AtmosSci-Benchは、マルチチョイス質問(MCQ)とオープンエンド質問(OEQ)の両方からなるデュアルフォーマット設計を備えている。
代表的なLCMを総合的に評価し、命令調整モデル、高度な推論モデル、数学強化モデル、ドメイン固有の気候モデルという4つのグループに分類する。
論文 参考訳(メタデータ) (2025-02-03T08:50:46Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - Unlocking the Potential: Benchmarking Large Language Models in Water Engineering and Research [29.000093936272695]
この研究は、様々な水工学および研究課題にまたがる大規模言語モデルの貢献を初めて評価した。
我々は,水工学と研究に関連する973の課題を,「汚水処理」「環境復元」「水処理と分布の低下」「衛生」「嫌気性消化」に分類した。
これらの課題に対して、7つのLCM(GPT-4, GPT-3.5, Gemini, GLM-4, ERNIE, QWEN, Llama3)の性能評価を行った。
論文 参考訳(メタデータ) (2024-07-22T12:32:22Z) - How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency [60.25969380388974]
大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
論文 参考訳(メタデータ) (2024-07-18T15:20:18Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [24.394320592613074]
大規模言語モデル(LLM)は、科学研究においてますます重要な役割を担っている。
これらのモデルに埋め込まれた科学的知識の広さと深さを評価するための包括的なベンチマークがまだ残っていない。
SciKnowEvalは,5段階の科学的理解の段階にわたってLSMを評価するために設計された大規模データセットである。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - Aquatic Navigation: A Challenging Benchmark for Deep Reinforcement Learning [53.3760591018817]
ゲームエンジンとDeep Reinforcement Learningの統合の最近の進歩を利用して,水上ナビゲーションのための新しいベンチマーク環境を提案する。
具体的には、最も広く受け入れられているアルゴリズムの一つであるPPOに着目し、先進的なトレーニング手法を提案する。
実験により,これらの成分をうまく組み合わせることで,有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2024-05-30T23:20:23Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。