論文の概要: Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research
- arxiv url: http://arxiv.org/abs/2505.06964v2
- Date: Sat, 17 May 2025 05:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.119978
- Title: Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research
- Title(参考訳): ブリッジングAIとカーボンキャプチャ - イオン液体のLCMデータセットとCBE研究
- Authors: Gaurab Sarkar, Sougata Saha,
- Abstract要約: LLM(Large Language Models)は、一般的な知識と推論タスクにおいて、例外的な性能を示す。
CBE(Chemical and Biological Engineering)のような専門的な科学分野におけるそれらの効果はいまだ研究されていない。
CBEにおけるLSMの推論をベンチマークするために設計された5,920のデータセットをキュレートした専門家をリリースする。
- 参考スコア(独自算出の注目度): 3.2995359570845912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in general knowledge and reasoning tasks across various domains. However, their effectiveness in specialized scientific fields like Chemical and Biological Engineering (CBE) remains underexplored. Addressing this gap requires robust evaluation benchmarks that assess both knowledge and reasoning capabilities in these niche areas, which are currently lacking. To bridge this divide, we present a comprehensive empirical analysis of LLM reasoning capabilities in CBE, with a focus on Ionic Liquids (ILs) for carbon sequestration - an emerging solution for mitigating global warming. We develop and release an expert - curated dataset of 5,920 examples designed to benchmark LLMs' reasoning in this domain. The dataset incorporates varying levels of difficulty, balancing linguistic complexity and domain-specific knowledge. Using this dataset, we evaluate three open-source LLMs with fewer than 10 billion parameters. Our findings reveal that while smaller general-purpose LLMs exhibit basic knowledge of ILs, they lack the specialized reasoning skills necessary for advanced applications. Building on these results, we discuss strategies to enhance the utility of LLMs for carbon capture research, particularly using ILs. Given the significant carbon footprint of LLMs, aligning their development with IL research presents a unique opportunity to foster mutual progress in both fields and advance global efforts toward achieving carbon neutrality by 2050.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にわたる一般的な知識と推論タスクにおいて、例外的な性能を示してきた。
しかし、化学・生物工学(CBE)のような専門的な科学分野におけるその効果はいまだ未解明のままである。
このギャップに対処するには、これらのニッチ領域における知識と推論能力の両方を評価する堅牢な評価ベンチマークが必要です。
この分割を橋渡しするために,CBE における LLM 推理能力の総合的な実証分析を行い,地球温暖化を緩和する新たなソリューションである 炭素回収のためのイオン液体 (ILs) に着目した。
この領域におけるLSMの推論をベンチマークするために設計された5,920のサンプルをキュレートしたデータセットを開発し、リリースする。
データセットにはさまざまな難易度が含まれており、言語的な複雑さとドメイン固有の知識のバランスをとる。
このデータセットを用いて,パラメータが100億未満の3つのオープンソースLCMを評価した。
以上の結果から,より小型の汎用LLMはILの基本知識を示すが,高度な応用に必要な推論スキルは欠如していることが判明した。
これらの結果に基づいて, 炭素捕獲研究におけるLCMの有用性を高めるための戦略, 特にILの活用について論じる。
LLMの炭素フットプリントが著しいことを考えると、その開発をIL研究と整合させることは、双方の分野における相互の進歩を促進し、2050年までに炭素中立を達成するためのグローバルな努力を前進させるユニークな機会となる。
関連論文リスト
- Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review [8.524433537542484]
大規模言語モデル(LLM)は、HCIに革命をもたらす位置にある。
現在、LLMsのHCIへの取り込みについてはほとんど理解されていない。
我々は、LLMに関わる2020-24年の153件のCHI論文をレビューする。
論文 参考訳(メタデータ) (2025-01-22T00:31:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [27.976789491185354]
分子空間におけるベイズ最適化を高速化するために,大規模言語モデル(LLM)が実際に有用かどうかを考察する。
実世界の化学問題に対する我々の実験は、LLMが分子上のBOに有用であることを示しているが、それらはドメイン固有のデータで事前訓練されたり微調整された場合に限られる。
論文 参考訳(メタデータ) (2024-02-07T16:32:58Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。