論文の概要: FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models
- arxiv url: http://arxiv.org/abs/2508.01055v1
- Date: Fri, 01 Aug 2025 20:15:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.684413
- Title: FGBench: A Dataset and Benchmark for Molecular Property Reasoning at Functional Group-Level in Large Language Models
- Title(参考訳): FGBench:大規模言語モデルにおける関数型グループレベルにおける分子特性推論のためのデータセットとベンチマーク
- Authors: Xuan Liu, Siru Ouyang, Xianrui Zhong, Jiawei Han, Huimin Zhao,
- Abstract要約: FGBenchは、625Kの分子特性解析問題と機能的グループ情報を組み合わせたデータセットである。
FGBenchは、分子特性推論のための3つのカテゴリにまたがる245の異なる官能基上の回帰タスクと分類タスクを含む。
- 参考スコア(独自算出の注目度): 25.392024856888604
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have gained significant attention in chemistry. However, most existing datasets center on molecular-level property prediction and overlook the role of fine-grained functional group (FG) information. Incorporating FG-level data can provide valuable prior knowledge that links molecular structures with textual descriptions, which can be used to build more interpretable, structure-aware LLMs for reasoning on molecule-related tasks. Moreover, LLMs can learn from such fine-grained information to uncover hidden relationships between specific functional groups and molecular properties, thereby advancing molecular design and drug discovery. Here, we introduce FGBench, a dataset comprising 625K molecular property reasoning problems with functional group information. Functional groups are precisely annotated and localized within the molecule, which ensures the dataset's interoperability thereby facilitating further multimodal applications. FGBench includes both regression and classification tasks on 245 different functional groups across three categories for molecular property reasoning: (1) single functional group impacts, (2) multiple functional group interactions, and (3) direct molecular comparisons. In the benchmark of state-of-the-art LLMs on 7K curated data, the results indicate that current LLMs struggle with FG-level property reasoning, highlighting the need to enhance reasoning capabilities in LLMs for chemistry tasks. We anticipate that the methodology employed in FGBench to construct datasets with functional group-level information will serve as a foundational framework for generating new question-answer pairs, enabling LLMs to better understand fine-grained molecular structure-property relationships. The dataset and evaluation code are available at \href{https://github.com/xuanliugit/FGBench}{https://github.com/xuanliugit/FGBench}.
- Abstract(参考訳): 大規模言語モデル(LLM)は化学において大きな注目を集めている。
しかし、既存のデータセットのほとんどは分子レベルの特性予測に重点を置いており、FG情報の役割を見落としている。
FGレベルのデータを組み込むことで、分子構造とテキスト記述を結びつける貴重な事前知識が得られる。
さらに、LSMはそのようなきめ細かい情報から学習し、特定の官能基と分子特性の間の隠れた関係を解明し、分子設計と薬物発見を促進する。
ここではFGBenchについて紹介する。FGBenchは、625Kの分子特性解析問題と機能的グループ情報を組み合わせたデータセットである。
関数群は正確にアノテートされ、分子内に局在するので、データセットの相互運用性が保証され、さらなるマルチモーダルな応用が容易になる。
FGBenchは、分子特性推論のための3つのカテゴリにわたる245の異なる官能基の回帰および分類タスクを含む:(1)単一官能基の影響、(2)複数の官能基相互作用、(3)直接分子比較。
その結果、7Kキュレートされたデータに対する最先端のLCMのベンチマークでは、現在のLSMはFGレベルのプロパティ推論に苦慮しており、化学タスクにおけるLSMの推論能力を高める必要性が強調されている。
我々は,FGBenchにおける機能的グループレベルの情報を用いたデータセット構築手法が,新たな問合せペアを生成するための基盤となることを期待する。
データセットと評価コードは \href{https://github.com/xuanliugit/FGBench}{https://github.com/xuanliugit/FGBench} で公開されている。
関連論文リスト
- Large Language Model Agent for Modular Task Execution in Drug Discovery [7.1616715247845955]
本稿では,大規模言語モデル(LLM)をベースとしたモジュール型フレームワークを提案する。
LLM推論とドメイン固有のツールを組み合わせることで、バイオメディカルデータ検索、ドメイン固有の質問応答、分子生成、特性予測、特性認識分子精製、および3Dタンパク質リガンド構造生成を行う。
論文 参考訳(メタデータ) (2025-06-26T00:19:01Z) - Improving Chemical Understanding of LLMs via SMILES Parsing [18.532188836688928]
CLEANMOLは、SMILES解析をクリーンで決定論的タスクのスイートに定式化する新しいフレームワークである。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
論文 参考訳(メタデータ) (2025-05-22T07:54:39Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - StructGPT: A General Framework for Large Language Model to Reason over
Structured Data [117.13986738340027]
我々は,構造化データに基づく質問応答タスクの解法として,emphIterative Reading-then-Reasoning(IRR)アプローチを開発した。
提案手法はChatGPTの性能を大幅に向上させ,全データの教師付きベースラインに対して同等のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-05-16T17:45:23Z) - Implicit Geometry and Interaction Embeddings Improve Few-Shot Molecular
Property Prediction [53.06671763877109]
我々は, 複雑な分子特性を符号化した分子埋め込みを開発し, 数発の分子特性予測の性能を向上させる。
我々の手法は大量の合成データ、すなわち分子ドッキング計算の結果を利用する。
複数の分子特性予測ベンチマークでは、埋め込み空間からのトレーニングにより、マルチタスク、MAML、プロトタイプラーニング性能が大幅に向上する。
論文 参考訳(メタデータ) (2023-02-04T01:32:40Z) - Discovery of structure-property relations for molecules via
hypothesis-driven active learning over the chemical space [0.0]
本稿では,仮説学習に基づく化学空間上の能動的学習のための新しいアプローチを提案する。
我々は,データサブセットの小さな部分集合に基づいて,関心の構造と機能の関係性に関する仮説を構築した。
このアプローチでは、SISSOやアクティブラーニングといったシンボリックレグレッションメソッドの要素をひとつのフレームワークに統合する。
論文 参考訳(メタデータ) (2023-01-06T14:22:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。