論文の概要: A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method
- arxiv url: http://arxiv.org/abs/2602.02320v1
- Date: Mon, 02 Feb 2026 16:49:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.30674
- Title: A Large-Scale Dataset for Molecular Structure-Language Description via a Rule-Regularized Method
- Title(参考訳): 規則規則化法による分子構造記述のための大規模データセット
- Authors: Feiyang Cai, Guijuan He, Yi Hu, Jingjing Wang, Joshua Luo, Tianyu Zhu, Srikanth Pilla, Gang Li, Ling Liu, Feng Luo,
- Abstract要約: 本稿では,分子構造記述を大規模に生成するための完全自動アノテーションフレームワークを提案する。
我々のアプローチはIUPACを解釈し、分子構造を明示的にエンコードするリッチで構造化されたXMLメタデータを構築するための規則に基づく化学命名法に基づいている。
このフレームワークを用いて、約163ドルの分子記述ペアからなる大規模データセットをキュレートする。
- 参考スコア(独自算出の注目度): 21.001812865886922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular function is largely determined by structure. Accurately aligning molecular structure with natural language is therefore essential for enabling large language models (LLMs) to reason about downstream chemical tasks. However, the substantial cost of human annotation makes it infeasible to construct large-scale, high-quality datasets of structure-grounded descriptions. In this work, we propose a fully automated annotation framework for generating precise molecular structure descriptions at scale. Our approach builds upon and extends a rule-based chemical nomenclature parser to interpret IUPAC names and construct enriched, structured XML metadata that explicitly encodes molecular structure. This metadata is then used to guide LLMs in producing accurate natural-language descriptions. Using this framework, we curate a large-scale dataset of approximately $163$k molecule-description pairs. A rigorous validation protocol combining LLM-based and expert human evaluation on a subset of $2,000$ molecules demonstrates a high description precision of $98.6\%$. The resulting dataset provides a reliable foundation for future molecule-language alignment, and the proposed annotation method is readily extensible to larger datasets and broader chemical tasks that rely on structural descriptions.
- Abstract(参考訳): 分子機能は構造によって決定される。
したがって、分子構造と自然言語を正確に整合させることは、下流の化学タスクを大規模言語モデル (LLM) に推論させるのに不可欠である。
しかし、人間のアノテーションのかなりのコストは、構造的記述の大規模で高品質なデータセットを構築するのを困難にしている。
本研究では,分子構造記述を大規模に生成するための完全自動アノテーションフレームワークを提案する。
提案手法は規則に基づく化学命名法を用いてIUPACを解釈し、分子構造を明示的にコードする構造化されたXMLメタデータを構築する。
このメタデータは、LLMの正確な自然言語記述のガイドに使用される。
このフレームワークを用いて、約163ドルの分子記述ペアからなる大規模データセットをキュレートする。
LLMに基づく厳密な検証プロトコルと2000ドルの分子のサブセットに対する専門家による評価を組み合わせると、高い記述精度が9,8.6 %$であることが示される。
得られたデータセットは、将来の分子言語アライメントのための信頼性の高い基盤を提供し、提案されたアノテーション法は、構造記述に依存するより大きなデータセットやより広範な化学タスクに対して容易に拡張可能である。
関連論文リスト
- How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - ChemActor: Enhancing Automated Extraction of Chemical Synthesis Actions with LLM-Generated Data [53.78763789036172]
ケミカルエグゼキュータとして完全微調整された大規模言語モデル(LLM)であるChemActorを紹介し,非構造化実験手順と構造化動作シーケンスを変換する。
このフレームワークは、分散分散に基づくデータ選択モジュールと汎用LLMを統合し、単一の分子入力からマシン実行可能なアクションを生成する。
反応記述(R2D)と記述記述処理(D2A)のタスクの実験により、ChemActorは最先端のパフォーマンスを達成し、ベースラインモデルよりも10%高い性能を示した。
論文 参考訳(メタデータ) (2025-06-30T05:11:19Z) - Improving Chemical Understanding of LLMs via SMILES Parsing [18.532188836688928]
CLEANMOLは、SMILES解析をクリーンで決定論的タスクのスイートに定式化する新しいフレームワークである。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
論文 参考訳(メタデータ) (2025-05-22T07:54:39Z) - MolParser: End-to-end Visual Recognition of Molecule Structures in the Wild [17.846545370594452]
両端から端までの新しい化学構造認識法であるモールについて述べる。
SMILES符号化法を用いて,最大のアノテート分子画像データセットである Mol-7M をアノテートする。
我々は、カリキュラム学習アプローチを用いて、エンドツーエンドの分子画像キャプションモデル、Molを訓練した。
論文 参考訳(メタデータ) (2024-11-17T15:00:09Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [20.250683535089617]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
物理的、化学的に詳細なセマンティクスを特異的な分子表現と融合することにより、TransDLMは様々な情報ソースを効果的に統合し、正確な最適化を導く。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - L+M-24: Building a Dataset for Language + Molecules @ ACL 2024 [46.478275217556586]
ACL 2024で共有されたLanguage + Molecules Workshopのために作成された$textitL+M-24$データセットについて詳述する。
特に、$textitL+M-24$は、分子設計における自然言語の3つの重要な利点(合成性、機能、抽象)に焦点を当てるように設計されている。
論文 参考訳(メタデータ) (2024-02-22T20:11:24Z) - Structured information extraction from complex scientific text with
fine-tuned large language models [55.96705756327738]
そこで本研究では,共振器認識と関係抽出のための簡単なシーケンス・ツー・シーケンス手法を提案する。
このアプローチは、約500組のプロンプトで微調整された、事前訓練済みの大規模言語モデル(LLM)であるGPT-3を利用する。
このアプローチは、構造化されていないテキストから抽出された構造化知識の大規模なデータベースを得るための、シンプルで、アクセス可能で、非常に柔軟な経路を示す。
論文 参考訳(メタデータ) (2022-12-10T07:51:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。