Fugu-MT 論文翻訳(概要): From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering

論文の概要: From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering

arxiv url: http://arxiv.org/abs/2505.06964v1
Date: Sun, 11 May 2025 12:32:57 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-13 20:21:49.135091
Title: From Knowledge to Reasoning: Evaluating LLMs for Ionic Liquids Research in Chemical and Biological Engineering
Title（参考訳）: 知識から推論へ:化学・生物工学におけるイオン液体研究のためのLCMの評価
Authors: Gaurab Sarkar, Sougata Saha,
Abstract要約: 大規模言語モデル(LLM)は、多種多様な一般知識と推論タスクにおいて顕著な性能を達成した。 CBEにおけるLCMの推論能力を実証的に測定した。我々は、Ionic LiquidsのニッチドメインにおけるLSMの推論能力をベンチマークするために、専門家による5,920のサンプルデータセットを構築し、共有する。
参考スコア（独自算出の注目度）: 3.2995359570845912
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Although Large Language Models (LLMs) have achieved remarkable performance in diverse general knowledge and reasoning tasks, their utility in the scientific domain of Chemical and Biological Engineering (CBE) is unclear. Hence, it necessitates challenging evaluation benchmarks that can measure LLM performance in knowledge- and reasoning-based tasks, which is lacking. As a foundational step, we empirically measure the reasoning capabilities of LLMs in CBE. We construct and share an expert-curated dataset of 5,920 examples for benchmarking LLMs' reasoning capabilities in the niche domain of Ionic Liquids (ILs) for carbon sequestration, an emergent solution to reducing global warming. The dataset presents different difficulty levels by varying along the dimensions of linguistic and domain-specific knowledge. Benchmarking three less than 10B parameter open-source LLMs on the dataset suggests that while smaller general-purpose LLMs are knowledgeable about ILs, they lack domain-specific reasoning capabilities. Based on our results, we further discuss considerations for leveraging LLMs for carbon capture research using ILs. Since LLMs have a high carbon footprint, gearing them for IL research can symbiotically benefit both fields and help reach the ambitious carbon neutrality target by 2050. Dataset link: https://github.com/sougata-ub/llms_for_ionic_liquids
Abstract（参考訳）: LLM(Large Language Models)は、様々な一般知識や推論タスクにおいて顕著な性能を発揮しているが、CBE(Chemical and Biological Engineering)の科学分野における有用性は不明確である。したがって、知識と推論に基づくタスクにおいてLLMのパフォーマンスを測ることのできる、困難な評価ベンチマークが必要である。基礎的なステップとして,我々はCBEにおけるLCMの推論能力を実証的に測定する。地球温暖化低減のための創発的なソリューションである炭素回収のためのニッチドメインIonic Liquids (ILs) において, LLMの推論能力をベンチマークする専門家による5,920のデータセットを構築し, 共有する。データセットは言語とドメイン固有の知識の次元に応じて異なる難易度を示す。データセット上で10B未満のパラメータのオープンソース LLM をベンチマークすると、より小さな汎用 LLM は IL に精通しているが、ドメイン固有の推論能力がないことが示唆されている。この結果に基づき, ILを用いた炭素捕獲研究におけるLCMの活用について考察した。 LLMは炭素フットプリントが高いため、IL研究のための装置は両方の分野に共生的に恩恵を与え、2050年までに野心的な炭素中立性目標に達するのに役立つ。データセットリンク:https://github.com/sougata-ub/llms_for_ionic_liquids

関連論文リスト

EarthSE: A Benchmark for Evaluating Earth Scientific Exploration Capability of LLMs [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。 10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文参考訳（メタデータ） (2025-05-22T06:46:08Z)
General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文参考訳（メタデータ） (2025-05-20T17:41:33Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文参考訳（メタデータ） (2025-02-21T05:35:20Z)
Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文参考訳（メタデータ） (2025-02-15T07:43:43Z)
Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文参考訳（メタデータ） (2025-02-11T02:31:09Z)
Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。 LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文参考訳（メタデータ） (2025-01-24T06:39:38Z)
Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review [8.524433537542484]
大規模言語モデル(LLM)は、HCIに革命をもたらす位置にある。現在、LLMsのHCIへの取り込みについてはほとんど理解されていない。我々は、LLMに関わる2020-24年の153件のCHI論文をレビューする。
論文参考訳（メタデータ） (2025-01-22T00:31:51Z)
GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。 GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文参考訳（メタデータ） (2024-10-11T03:05:06Z)
Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。性能ギャップを実証的に説明するための一連の実験を考案する。
論文参考訳（メタデータ） (2024-09-27T05:06:43Z)
ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。 ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文参考訳（メタデータ） (2024-09-21T02:50:43Z)
SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文参考訳（メタデータ） (2024-06-13T13:27:52Z)
LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文参考訳（メタデータ） (2024-02-26T07:33:05Z)
A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [27.976789491185354]
分子空間におけるベイズ最適化を高速化するために,大規模言語モデル(LLM)が実際に有用かどうかを考察する。実世界の化学問題に対する我々の実験は、LLMが分子上のBOに有用であることを示しているが、それらはドメイン固有のデータで事前訓練されたり微調整された場合に限られる。
論文参考訳（メタデータ） (2024-02-07T16:32:58Z)
Opportunities and Challenges of Applying Large Language Models in Building Energy Efficiency and Decarbonization Studies: An Exploratory Overview [3.580636644178055]
本稿では,エネルギー効率と脱炭研究におけるLarge Language Models(LLMs)の適用,意義,可能性について検討する。 LLMの有望な可能性にもかかわらず、複雑で高価な計算、データのプライバシ、セキュリティと著作権、微調整されたLLMの複雑さ、自己整合性といった課題について議論する。
論文参考訳（メタデータ） (2023-12-18T20:58:58Z)
EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文参考訳（メタデータ） (2023-10-23T21:15:54Z)
Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。本稿では,文書を動的に活用するための簡易な手法を提案する。
論文参考訳（メタデータ） (2023-07-20T16:46:10Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
What can Large Language Models do in chemistry? A comprehensive benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文参考訳（メタデータ） (2023-05-27T14:17:33Z)
Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文参考訳（メタデータ） (2022-02-16T13:44:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。