論文の概要: MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
- arxiv url: http://arxiv.org/abs/2411.14721v1
- Date: Fri, 22 Nov 2024 04:28:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-25 15:03:43.377502
- Title: MolReFlect: Towards In-Context Fine-grained Alignments between Molecules and Texts
- Title(参考訳): MolReFlect: 分子とテキスト間のコンテキスト内きめ細かいアライメントを目指して
- Authors: Jiatong Li, Yunqing Liu, Wei Liu, Jingdi Le, Di Zhang, Wenqi Fan, Dongzhan Zhou, Yuqiang Li, Qing Li,
- Abstract要約: MolReFlectは、微細な方法で分子カプセルアライメントを文脈的に実行するように設計された教師学生向けフレームワークである。
実験の結果,MorReFlectはMistral-7BのようなLLMを従来のベースラインよりも大幅に向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 23.53304253421472
- License:
- Abstract: Molecule discovery is a pivotal research field, impacting everything from the medicines we take to the materials we use. Recently, Large Language Models (LLMs) have been widely adopted in molecule understanding and generation, yet the alignments between molecules and their corresponding captions remain a significant challenge. Previous endeavours often treat the molecule as a general SMILES string or molecular graph, neglecting the fine-grained alignments between the molecular sub-structures and the descriptive textual phrases, which are crucial for accurate and explainable predictions. In this case, we introduce MolReFlect, a novel teacher-student framework designed to contextually perform the molecule-caption alignments in a fine-grained way. Our approach initially leverages a larger teacher LLM to label the detailed alignments by directly extracting critical phrases from molecule captions or SMILES strings and implying them to corresponding sub-structures or characteristics. To refine these alignments, we propose In-Context Selective Reflection, which retrieves previous extraction results as context examples for teacher LLM to reflect and lets a smaller student LLM select from in-context reflection and previous extraction results. Finally, we enhance the learning process of the student LLM through Chain-of-Thought In-Context Molecule Tuning, integrating the fine-grained alignments and the reasoning processes within the Chain-of-Thought format. Our experimental results demonstrate that MolReFlect enables LLMs like Mistral-7B to significantly outperform the previous baselines, achieving SOTA performance on the ChEBI-20 dataset. This advancement not only enhances the generative capabilities of LLMs in the molecule-caption translation task, but also contributes to a more explainable framework.
- Abstract(参考訳): 分子発見は重要な研究分野であり、私たちが服用する薬から使用する材料まで、あらゆるものに影響を与える。
近年,分子理解と生成においてLLM(Large Language Models)が広く採用されているが,分子とそれに対応するキャプションのアライメントは依然として重要な課題である。
以前の試みでは、分子を一般的なSMILES文字列または分子グラフとして扱い、分子のサブ構造と説明文のフレーズとの微粒なアライメントを無視し、正確で説明可能な予測に不可欠であった。
本稿では,分子キャプションアライメントを微粒な方法で文脈的に行うように設計された,新しい教師学習フレームワークであるMolReFlectを紹介する。
提案手法はまず,分子キャプションやSMILES文字列から直接クリティカルフレーズを抽出し,対応するサブ構造や特徴に関連付けることで,より大規模なLCMを用いて詳細なアライメントをラベル付けする。
これらのアライメントを改良するために,教師LLMの文脈例として過去の抽出結果を抽出するIn-Context Selective Reflectionを提案する。
最後に,学習者のLCMの学習過程をChain-of-Thought In-Context Molecule Tuningにより拡張し,微粒なアライメントと推論プロセスをChain-of-Thought形式に統合する。
実験の結果,MorReFlectはMistral-7BのようなLLMを従来のベースラインを大幅に上回り,ChEBI-20データセット上でのSOTA性能を実現していることがわかった。
この進歩は、分子キャプション翻訳タスクにおけるLLMの生成能力を高めるだけでなく、より説明可能なフレームワークにも貢献する。
関連論文リスト
- MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - Text-Guided Multi-Property Molecular Optimization with a Diffusion Language Model [77.50732023411811]
変換器を用いた拡散言語モデル(TransDLM)を用いたテキスト誘導多目的分子最適化手法を提案する。
TransDLMは標準化された化学命名法を分子の意味表現として利用し、プロパティ要求をテキスト記述に暗黙的に埋め込む。
提案手法は, 分子構造類似性を最適化し, ベンチマークデータセットの化学的特性を向上するための最先端手法を超越した手法である。
論文 参考訳(メタデータ) (2024-10-17T14:30:27Z) - Many-Shot In-Context Learning for Molecular Inverse Design [56.65345962071059]
大規模言語モデル(LLM)は、数ショットのインコンテキスト学習(ICL)において、優れたパフォーマンスを示している。
マルチショットICLで利用可能な実験データの不足を克服する,新しい半教師付き学習手法を開発した。
示すように、この新しい手法は、既存の分子設計のためのICL法を大幅に改善し、科学者にとってアクセスしやすく、使いやすくする。
論文 参考訳(メタデータ) (2024-07-26T21:10:50Z) - MolX: Enhancing Large Language Models for Molecular Learning with A Multi-Modal Extension [34.586861881519134]
タスクハンドリング能力の強い大規模言語モデル(LLM)は、様々な分野において顕著な進歩を見せている。
本研究は、分子をマルチモーダルな外部モジュール、すなわちMollXに装備することで、分子の理解能力を高めることを目的とする。
特に,分子の表現にSMILES文字列を直接使用する代わりに,特定のエンコーダを用いて,SMILES文字列と2次元分子グラフ表現の両方から微細な特徴を抽出する。
論文 参考訳(メタデータ) (2024-06-10T20:25:18Z) - Large Language Models are In-Context Molecule Learners [22.06735237464927]
我々は,LLMが文脈例から分子文アライメントを学習できる新しいパラダイムとして,In-Context Molecule Adaptation (ICMA)を提案する。
ICMAは、Hybrid Context Retrieval、Post-Retrieval Re- rank、In-context Molecule Tuningの3つのステージを組み込んでいる。
ICMTは、余分な訓練コーパスや複雑な構造を伴わずに、LLMに最先端または同等のパフォーマンスを実現することができることを示す。
論文 参考訳(メタデータ) (2024-03-07T03:58:28Z) - The Unlocking Spell on Base LLMs: Rethinking Alignment via In-Context
Learning [61.68787689234622]
最近の研究であるLIMAは、アライメントチューニングに1Kの例のみを用いることで、アライメント性能も著しく向上することを示した。
これにより、アライメントチューニングがベースLLMをどのように変換するかという疑問が提起される。
本研究では,チューニングフリーとチューニングベースアライメントのギャップを戦略的プロンプトによって著しく低減できることを示す。
論文 参考訳(メタデータ) (2023-12-04T00:46:11Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Empowering Molecule Discovery for Molecule-Caption Translation with Large Language Models: A ChatGPT Perspective [53.300288393173204]
大規模言語モデル(LLM)は、様々なクロスモーダルタスクにおいて顕著なパフォーマンスを示している。
本研究では,分子カプセル翻訳のためのインコンテキストFew-Shot Molecule Learningパラダイムを提案する。
分子理解とテキストベースの分子生成を含む分子キャプション翻訳におけるMollReGPTの有効性を評価する。
論文 参考訳(メタデータ) (2023-06-11T08:16:25Z) - Label Words are Anchors: An Information Flow Perspective for
Understanding In-Context Learning [77.7070536959126]
大規模言語モデル(LLM)の有望な能力としてインコンテキスト学習(ICL)が出現する
本稿では,情報フローレンズを用いたICLの動作機構について検討する。
本稿では,ICL性能向上のためのアンカー再重み付け手法,推論の高速化のための実演圧縮手法,GPT2-XLにおけるICLエラーの診断のための解析フレームワークを提案する。
論文 参考訳(メタデータ) (2023-05-23T15:26:20Z) - MolXPT: Wrapping Molecules with Text for Generative Pre-training [141.0924452870112]
MolXPTは、テキストでラップされたSMILESで事前訓練されたテキストと分子の統一言語モデルである。
MolXPT は MoleculeNet 上での分子特性予測の強いベースラインを上回ります。
論文 参考訳(メタデータ) (2023-05-18T03:58:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。