論文の概要: MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry
- arxiv url: http://arxiv.org/abs/2606.05693v1
- Date: Thu, 04 Jun 2026 04:19:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.55476
- Title: MolE-RAG: Molecular Structure-Enhanced Retrieval-Augmented Generation for Chemistry
- Title(参考訳): MolE-RAG:分子構造を増強した化学用検索生成
- Authors: Joey Chan, Wonbin Kweon, Ashley Shin, Niharika Bhattacharjee, Pengcheng Jiang, Yue Guo, Jiawei Han,
- Abstract要約: MolE-RAGは、分子特性予測のためのトレーニングなし、分子中心の検索強化生成フレームワークである。
我々は, 9つの分子特性予測タスクに対して, プロプライエタリ, 化学特化, オープンソースLCMを用いてMole-RAGを評価した。
- 参考スコア(独自算出の注目度): 21.05559192998554
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large language models (LLMs) have shown promise for molecular property prediction, but their ability to reason over chemical structures remains limited, as molecular representations such as SMILES differ substantially from the natural language on which LLMs are primarily trained. To bridge this semantic and chemical knowledge gap, we propose MolE-RAG, a training-free, molecule-centric retrieval-augmented generation framework for LLM-based molecular property prediction. MolE-RAG augments each prediction with three complementary sources of inference-time context: retrieved chemistry literature, molecule-specific information including compound synonyms, identifiers, functional group annotations, and physicochemical descriptors, and structurally similar molecules retrieved from the training set. We evaluate MolE-RAG across nine molecular property prediction tasks using proprietary, chemistry-specialized, and open-source LLMs. Across general-purpose LLMs, MolE-RAG improves ROC-AUC by up to 28 percentage points on classification tasks and reduces regression RMSE by up to 67% relative to a SMILES-only baseline. We further find that the utility of each context source varies across models and tasks, with different models benefiting most from textual retrieval, molecular context, or structural retrieval. These results suggest that molecule-centric retrieval can improve LLM-based molecular property prediction without model fine-tuning while providing a flexible framework for integrating heterogeneous chemical knowledge at inference time.
- Abstract(参考訳): 大規模言語モデル (LLMs) は分子特性予測の可能性を示唆しているが、SMILESのような分子表現はLLMが主に訓練されている自然言語と大きく異なるため、化学構造を推論する能力は依然として限られている。
この意味と化学知識のギャップを埋めるため,LLMに基づく分子特性予測のためのトレーニング不要な分子中心検索拡張生成フレームワークであるMole-RAGを提案する。
MolE-RAGは、それぞれの予測を3つの相補的な推論時間の文脈で拡張する: 検索された化学文献、複合同義語、識別子、機能的なグループアノテーション、物理化学的記述子を含む分子特異的情報、およびトレーニングセットから取得された構造的に類似した分子。
我々は, 9つの分子特性予測タスクに対して, プロプライエタリ, 化学特化, オープンソースLCMを用いてMole-RAGを評価した。
汎用LLM全体では、Mole-RAGはROC-AUCを最大28パーセントの分類タスクで改善し、SMILESのみのベースラインと比較して最大67%の回帰RMSEを削減している。
さらに、各コンテキストソースの効用は、テキスト検索、分子コンテキスト、構造的検索など、モデルやタスクによって異なることが判明した。
これらの結果から, 分子中心の検索は, モデル微調整を伴わずに, LLMに基づく分子特性予測を改良し, 推論時に不均一な化学知識を統合する柔軟な枠組みを提供することが示唆された。
関連論文リスト
- MolLingo: Molecule-Native Representations for LLM-Powered Scientific Agents [57.28652712579434]
分子設計を自動化するために化学者の推論過程をエミュレートするマルチエージェントシステムであるMolLingoを提案する。
MolLingoは、共有メモリモジュールを通じて、文学エージェント、化学エージェント、オーケストレーションをコーディネートすることで、この問題に対処する。
初期治療設計におけるケーススタディとして、MolLingoは、結合部位の幾何学と残基レベルのタンパク質コンテキストにおけるChemist Agentの推論を根拠にしている。
論文 参考訳(メタデータ) (2026-05-27T02:11:23Z) - How well can off-the-shelf LLMs elucidate molecular structures from mass spectra using chain-of-thought reasoning? [51.286853421822705]
大規模言語モデル (LLM) は推論集約的な科学的タスクを約束するが、化学的解釈の能力はまだ不明である。
我々は、分子構造を予測するために、LLMが質量スペクトルデータに対してどのように理由を持つかを評価する、Chain-of-Thought(CoT)プロンプトフレームワークとベンチマークを導入する。
SMILESの妥当性, 式整合性, 構造的類似性の指標による評価の結果, LLMは合成学的に有効で, 部分的に可視な構造を生成できるが, 分子予測の正確性やリンク推論を達成できないことがわかった。
論文 参考訳(メタデータ) (2026-01-09T20:08:42Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Improving Chemical Understanding of LLMs via SMILES Parsing [18.532188836688928]
CLEANMOLは、SMILES解析をクリーンで決定論的タスクのスイートに定式化する新しいフレームワークである。
適応的難易度スコアリングを伴う分子事前学習データセットを構築し,これらの課題に対してオープンソースのLCMを事前学習する。
以上の結果から,CLEANMOLは構造的理解を高めるだけでなく,Moll-Instructionsベンチマークのベースラインと競合する。
論文 参考訳(メタデータ) (2025-05-22T07:54:39Z) - Mol-LLM: Multimodal Generalist Molecular LLM with Improved Graph Utilization [8.846705148987652]
分子タスクの幅広い範囲を扱う最初のマルチモーダル・ジェネラリストモデルである Mol-LLM を紹介する。
Mol-LLMは最も包括的な分子LLMベンチマークで最先端または同等の結果が得られる。
論文 参考訳(メタデータ) (2025-02-05T01:14:12Z) - MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Instruction Multi-Constraint Molecular Generation Using a Teacher-Student Large Language Model [49.64512917330373]
本稿では,学生に類似した多制約分子生成大言語モデルTSMMGを紹介する。
TSMMGを訓練するために、これらの「教師」から分子知識を抽出し、大量のテキスト-分子対を構築する。
我々は,TSMMGが複雑で自然言語で記述された特性を満たす分子を生成できることを実験的に明らかにした。
論文 参考訳(メタデータ) (2024-03-20T02:15:55Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。