論文の概要: Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research
- arxiv url: http://arxiv.org/abs/2505.06964v2
- Date: Sat, 17 May 2025 05:08:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 12:45:56.119978
- Title: Bridging AI and Carbon Capture: A Dataset for LLMs in Ionic Liquids and CBE Research
- Title(参考訳): ブリッジングAIとカーボンキャプチャ - イオン液体のLCMデータセットとCBE研究
- Authors: Gaurab Sarkar, Sougata Saha,
- Abstract要約: LLM(Large Language Models)は、一般的な知識と推論タスクにおいて、例外的な性能を示す。
CBE(Chemical and Biological Engineering)のような専門的な科学分野におけるそれらの効果はいまだ研究されていない。
CBEにおけるLSMの推論をベンチマークするために設計された5,920のデータセットをキュレートした専門家をリリースする。
- 参考スコア(独自算出の注目度): 3.2995359570845912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated exceptional performance in general knowledge and reasoning tasks across various domains. However, their effectiveness in specialized scientific fields like Chemical and Biological Engineering (CBE) remains underexplored. Addressing this gap requires robust evaluation benchmarks that assess both knowledge and reasoning capabilities in these niche areas, which are currently lacking. To bridge this divide, we present a comprehensive empirical analysis of LLM reasoning capabilities in CBE, with a focus on Ionic Liquids (ILs) for carbon sequestration - an emerging solution for mitigating global warming. We develop and release an expert - curated dataset of 5,920 examples designed to benchmark LLMs' reasoning in this domain. The dataset incorporates varying levels of difficulty, balancing linguistic complexity and domain-specific knowledge. Using this dataset, we evaluate three open-source LLMs with fewer than 10 billion parameters. Our findings reveal that while smaller general-purpose LLMs exhibit basic knowledge of ILs, they lack the specialized reasoning skills necessary for advanced applications. Building on these results, we discuss strategies to enhance the utility of LLMs for carbon capture research, particularly using ILs. Given the significant carbon footprint of LLMs, aligning their development with IL research presents a unique opportunity to foster mutual progress in both fields and advance global efforts toward achieving carbon neutrality by 2050.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域にわたる一般的な知識と推論タスクにおいて、例外的な性能を示してきた。
しかし、化学・生物工学(CBE)のような専門的な科学分野におけるその効果はいまだ未解明のままである。
このギャップに対処するには、これらのニッチ領域における知識と推論能力の両方を評価する堅牢な評価ベンチマークが必要です。
この分割を橋渡しするために,CBE における LLM 推理能力の総合的な実証分析を行い,地球温暖化を緩和する新たなソリューションである 炭素回収のためのイオン液体 (ILs) に着目した。
この領域におけるLSMの推論をベンチマークするために設計された5,920のサンプルをキュレートしたデータセットを開発し、リリースする。
データセットにはさまざまな難易度が含まれており、言語的な複雑さとドメイン固有の知識のバランスをとる。
このデータセットを用いて,パラメータが100億未満の3つのオープンソースLCMを評価した。
以上の結果から,より小型の汎用LLMはILの基本知識を示すが,高度な応用に必要な推論スキルは欠如していることが判明した。
これらの結果に基づいて, 炭素捕獲研究におけるLCMの有用性を高めるための戦略, 特にILの活用について論じる。
LLMの炭素フットプリントが著しいことを考えると、その開発をIL研究と整合させることは、双方の分野における相互の進歩を促進し、2050年までに炭素中立を達成するためのグローバルな努力を前進させるユニークな機会となる。
関連論文リスト
- EarthSE: A Benchmark for Evaluating Earth Scientific Exploration Capability of LLMs [36.72915099998998]
本研究では,大言語モデル(LLM)の科学的探索能力を評価するために,地球科学の専門的なベンチマークを示す。
10万件の研究論文のコーパスを活用して、まず2つのQAデータセット(アース・アイロンとアース・シルバー)を構築します。
これらのデータセットは、5つの地球圏、114の分野、11のタスクカテゴリを含み、科学的探索に不可欠な知識を評価する。
論文 参考訳(メタデータ) (2025-05-22T06:46:08Z) - General-Reasoner: Advancing LLM Reasoning Across All Domains [64.70599911897595]
強化学習(RL)は近年,大規模言語モデル(LLM)の推論能力の向上に強い可能性を示している。
本稿では,多分野にわたるLSM推論能力の向上を目的とした,新たなトレーニングパラダイムであるGeneral-Reasonerを提案する。
私たちは一連のモデルをトレーニングし、物理学、化学、金融、電子工学など幅広い分野をカバーする幅広いデータセットでそれらを評価します。
論文 参考訳(メタデータ) (2025-05-20T17:41:33Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - Injecting Domain-Specific Knowledge into Large Language Models: A Comprehensive Survey [39.82566660592583]
大規模言語モデル(LLM)は、自然言語理解、テキスト要約、機械翻訳といった様々なタスクにおいて顕著な成功を収めている。
彼らの汎用的な性質は、医療、化学、法的な分析といった専門的な知識を必要とするドメイン固有のアプリケーションにおいて、その効果を制限していることが多い。
これを解決するために、研究者はドメイン固有の知識を統合することでLLMを強化する様々な方法を模索してきた。
論文 参考訳(メタデータ) (2025-02-15T07:43:43Z) - Understanding LLMs' Fluid Intelligence Deficiency: An Analysis of the ARC Task [71.61879949813998]
認知研究において、後者の能力は流体インテリジェンスと呼ばれ、人間のインテリジェンスを評価するために重要であると考えられている。
流体インテリジェンス評価に関する最近の研究は、LLMの能力に重大な欠陥を浮き彫りにした。
本研究は,既存のLSMにおいて,スキル構成能力の制限,抽象的な入力形式に慣れていないこと,左から右への復号化の本質的欠如の3つの大きな限界を明らかにした。
論文 参考訳(メタデータ) (2025-02-11T02:31:09Z) - Leveraging Online Olympiad-Level Math Problems for LLMs Training and Contamination-Resistant Evaluation [55.21013307734612]
AoPS-Instructは60,000以上の高品質QAペアのデータセットである。
LiveAoPSBenchは、最新のフォーラムデータから派生したタイムスタンプによる進化的評価セットである。
我々の研究は、高度な数学推論のための大規模で高品質なデータセットの作成と維持にスケーラブルなアプローチを提示している。
論文 参考訳(メタデータ) (2025-01-24T06:39:38Z) - Understanding the LLM-ification of CHI: Unpacking the Impact of LLMs at CHI through a Systematic Literature Review [8.524433537542484]
大規模言語モデル(LLM)は、HCIに革命をもたらす位置にある。
現在、LLMsのHCIへの取り込みについてはほとんど理解されていない。
我々は、LLMに関わる2020-24年の153件のCHI論文をレビューする。
論文 参考訳(メタデータ) (2025-01-22T00:31:51Z) - GIVE: Structured Reasoning of Large Language Models with Knowledge Graph Inspired Veracity Extrapolation [108.2008975785364]
Graph Inspired Veracity Extrapolation (GIVE)は、パラメトリックメモリと非パラメトリックメモリを融合して、最小の外部入力で正確な推論を改善する新しい推論手法である。
GIVE は LLM エージェントをガイドして,最も関連する専門家データ (observe) を選択し,クエリ固有の発散思考 (reflect) に従事し,その情報を合成して最終的な出力 (speak) を生成する。
論文 参考訳(メタデータ) (2024-10-11T03:05:06Z) - Exploring Language Model Generalization in Low-Resource Extractive QA [57.14068405860034]
ドメインドリフト下でのLarge Language Models (LLM) を用いた抽出質問応答(EQA)について検討する。
性能ギャップを実証的に説明するための一連の実験を考案する。
論文 参考訳(メタデータ) (2024-09-27T05:06:43Z) - ChemEval: A Comprehensive Multi-Level Chemical Evaluation for Large Language Models [62.37850540570268]
この領域の既存のベンチマークは、化学研究専門家の特定の要求を適切に満たさない。
ChemEvalは化学の4つの重要な進歩レベルを特定し、42の異なる化学タスクで12次元のLCMを評価する。
その結果, LLMは文献の理解と指導に優れる一方で, 高度な化学知識を必要とするタスクでは不足していることがわかった。
論文 参考訳(メタデータ) (2024-09-21T02:50:43Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - LLM Inference Unveiled: Survey and Roofline Model Insights [62.92811060490876]
大規模言語モデル(LLM)推論は急速に進化しており、機会と課題のユニークなブレンドを提示している。
本調査は, 研究状況を要約するだけでなく, 屋上モデルに基づく枠組みを導入することによって, 従来の文献レビューから際立っている。
このフレームワークは、ハードウェアデバイスにLSMをデプロイする際のボトルネックを特定し、実用上の問題を明確に理解する。
論文 参考訳(メタデータ) (2024-02-26T07:33:05Z) - A Sober Look at LLMs for Material Discovery: Are They Actually Good for Bayesian Optimization Over Molecules? [27.976789491185354]
分子空間におけるベイズ最適化を高速化するために,大規模言語モデル(LLM)が実際に有用かどうかを考察する。
実世界の化学問題に対する我々の実験は、LLMが分子上のBOに有用であることを示しているが、それらはドメイン固有のデータで事前訓練されたり微調整された場合に限られる。
論文 参考訳(メタデータ) (2024-02-07T16:32:58Z) - Opportunities and Challenges of Applying Large Language Models in
Building Energy Efficiency and Decarbonization Studies: An Exploratory
Overview [3.580636644178055]
本稿では,エネルギー効率と脱炭研究におけるLarge Language Models(LLMs)の適用,意義,可能性について検討する。
LLMの有望な可能性にもかかわらず、複雑で高価な計算、データのプライバシ、セキュリティと著作権、微調整されたLLMの複雑さ、自己整合性といった課題について議論する。
論文 参考訳(メタデータ) (2023-12-18T20:58:58Z) - EpiK-Eval: Evaluation for Language Models as Epistemic Models [16.485951373967502]
セグメンテッドな物語から一貫した知識表現を定式化する上で,LLMの習熟度を評価するための新しい質問答えベンチマークであるEpiK-Evalを紹介する。
これらの欠点は、一般的な訓練目的の本質的な性質に起因していると論じる。
本研究の成果は,より堅牢で信頼性の高いLCMを開発する上での洞察を与えるものである。
論文 参考訳(メタデータ) (2023-10-23T21:15:54Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z) - What can Large Language Models do in chemistry? A comprehensive
benchmark on eight tasks [41.9830989458936]
自然言語処理タスクに強力な能力を持つ大規模言語モデル(LLM)が出現している。
化学領域全体にわたる幅広いタスクにおいてLLMの能力を評価することを目的としている。
論文 参考訳(メタデータ) (2023-05-27T14:17:33Z) - Information Extraction in Low-Resource Scenarios: Survey and Perspective [56.5556523013924]
情報抽出は構造化されていないテキストから構造化された情報を導き出そうとする。
本稿では,emphLLMおよびemphLLMに基づく低リソースIEに対するニューラルアプローチについて概説する。
論文 参考訳(メタデータ) (2022-02-16T13:44:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。