論文の概要: From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering
- arxiv url: http://arxiv.org/abs/2505.06964v1
- Date: Sun, 11 May 2025 12:32:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-13 20:21:49.135091
- Title: From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering
- Title(参考訳): 知識から推論へ:化学・生物工学におけるイオン液体研究のためのLCMの評価
- Authors: Gaurab Sarkar, Sougata Saha,
- Abstract要約: 大規模言語モデル(LLM)は、多種多様な一般知識と推論タスクにおいて顕著な性能を達成した。
CBEにおけるLCMの推論能力を実証的に測定した。
我々は、Ionic LiquidsのニッチドメインにおけるLSMの推論能力をベンチマークするために、専門家による5,920のサンプルデータセットを構築し、共有する。
- 参考スコア(独自算出の注目度): 3.2995359570845912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Large Language Models (LLMs) have achieved remarkable performance in diverse general knowledge and reasoning tasks, their utility in the scientific domain of Chemical and Biological Engineering (CBE) is unclear. Hence, it necessitates challenging evaluation benchmarks that can measure LLM performance in knowledge- and reasoning-based tasks, which is lacking. As a foundational step, we empirically measure the reasoning capabilities of LLMs in CBE. We construct and share an expert-curated dataset of 5,920 examples for benchmarking LLMs' reasoning capabilities in the niche domain of Ionic Liquids (ILs) for carbon sequestration, an emergent solution to reducing global warming. The dataset presents different difficulty levels by varying along the dimensions of linguistic and domain-specific knowledge. Benchmarking three less than 10B parameter open-source LLMs on the dataset suggests that while smaller general-purpose LLMs are knowledgeable about ILs, they lack domain-specific reasoning capabilities. Based on our results, we further discuss considerations for leveraging LLMs for carbon capture research using ILs. Since LLMs have a high carbon footprint, gearing them for IL research can symbiotically benefit both fields and help reach the ambitious carbon neutrality target by 2050. Dataset link: https://github.com/sougata-ub/llms_for_ionic_liquids
- Abstract(参考訳): LLM(Large Language Models)は、様々な一般知識や推論タスクにおいて顕著な性能を発揮しているが、CBE(Chemical and Biological Engineering)の科学分野における有用性は不明確である。
したがって、知識と推論に基づくタスクにおいてLLMのパフォーマンスを測ることのできる、困難な評価ベンチマークが必要である。
基礎的なステップとして,我々はCBEにおけるLCMの推論能力を実証的に測定する。
地球温暖化低減のための創発的なソリューションである炭素回収のためのニッチドメインIonic Liquids (ILs) において, LLMの推論能力をベンチマークする専門家による5,920のデータセットを構築し, 共有する。
データセットは言語とドメイン固有の知識の次元に応じて異なる難易度を示す。
データセット上で10B未満のパラメータのオープンソース LLM をベンチマークすると、より小さな汎用 LLM は IL に精通しているが、ドメイン固有の推論能力がないことが示唆されている。
この結果に基づき, ILを用いた炭素捕獲研究におけるLCMの活用について考察した。
LLMは炭素フットプリントが高いため、IL研究のための装置は両方の分野に共生的に恩恵を与え、2050年までに野心的な炭素中立性目標に達するのに役立つ。
データセットリンク:https://github.com/sougata-ub/llms_for_ionic_liquids
関連論文リスト
- Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review [8.524433537542484]
大規模言語モデル(LLM)は、HCIに革命をもたらす位置にある。
現在、LLMsのHCIへの取り込みについてはほとんど理解されていない。
我々は、LLMに関わる2020-24年の153件のCHI論文をレビューする。
論文 参考訳(メタデータ) (2025-01-22T00:31:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [27.976789491185354]
分子空間におけるベイズ最適化を高速化するために,大規模言語モデル(LLM)が実際に有用かどうかを考察する。
実世界の化学問題に対する我々の実験は、LLMが分子上のBOに有用であることを示しているが、それらはドメイン固有のデータで事前訓練されたり微調整された場合に限られる。
論文 参考訳(メタデータ) (2024-02-07T16:32:58Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。