論文の概要: DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling
- arxiv url: http://arxiv.org/abs/2601.14732v1
- Date: Wed, 21 Jan 2026 07:41:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.280818
- Title: DeepMoLM: Leveraging Visual and Geometric Structural Information for Molecule-Text Modeling
- Title(参考訳): DeepMoLM: 分子・テキストモデリングのための視覚的・幾何学的構造情報を活用する
- Authors: Jing Lan, Hexiao Ding, Hongzhao Chen, Yufeng Jiang, Nga-Chun Ng, Gwing Kei Yip, Gerald W. Y. Cheng, Yunlin Mao, Jing Cai, Liang-ting Lin, Jung Sun Yoo,
- Abstract要約: We propose DeepMoLM: Deep Molecular Language M odeling, a dual-view framework that grounds high- resolution molecular image in geometry invariants。
DeepMoLMは1024$times$1024入力からの高周波証拠を保存し、コンホメータ近傍を離散3次元フィンガープリントとして符号化する。
すべてのプロパティクエリに対して有効な数値出力を生成し、分子量では MAE 13.64 g/mol、複雑度では 37.89 を達成する。
- 参考スコア(独自算出の注目度): 3.1716746406651457
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: AI models for drug discovery and chemical literature mining must interpret molecular images and generate outputs consistent with 3D geometry and stereochemistry. Most molecular language models rely on strings or graphs, while vision-language models often miss stereochemical details and struggle to map continuous 3D structures into discrete tokens. We propose DeepMoLM: Deep Molecular Language M odeling, a dual-view framework that grounds high-resolution molecular images in geometric invariants derived from molecular conformations. DeepMoLM preserves high-frequency evidence from 1024 $\times$ 1024 inputs, encodes conformer neighborhoods as discrete Extended 3-Dimensional Fingerprints, and fuses visual and geometric streams with cross-attention, enabling physically grounded generation without atom coordinates. DeepMoLM improves PubChem captioning with a 12.3% relative METEOR gain over the strongest generalist baseline while staying competitive with specialist methods. It produces valid numeric outputs for all property queries and attains MAE 13.64 g/mol on Molecular Weight and 37.89 on Complexity in the specialist setting. On ChEBI-20 description generation from images, it exceeds generalist baselines and matches state-of- the-art vision-language models. Code is available at https://github.com/1anj/DeepMoLM.
- Abstract(参考訳): 薬物発見と化学文献採掘のためのAIモデルは、分子画像を解釈し、3次元幾何学や立体化学と整合した出力を生成する必要がある。
ほとんどの分子言語モデルは文字列やグラフに依存しているが、視覚言語モデルはしばしば立体化学の詳細を見逃し、連続した3D構造を離散トークンにマッピングするのに苦労する。
We propose DeepMoLM: Deep Molecular Language M odeling, a dual-view framework that grounds high- resolution molecular image in geometry invariants from molecular conformation。
DeepMoLMは、1024$\times$1024入力からの高周波の証拠を保存し、コンフォーマー近傍を離散的な3次元フィンガープリントとしてエンコードし、視覚的および幾何学的ストリームを相互注意で融合させ、原子座標なしで物理的に接地した生成を可能にする。
DeepMoLMはPubChemキャプションを改善し、12.3%の相対的なMETEORが最強のジェネラリストベースラインを上回り、スペシャリストメソッドとの競争を維持している。
すべてのプロパティクエリに対して有効な数値出力を生成し、分子量ではMAE 13.64 g/mol、スペシャリストでは37.89 g/molを達成する。
画像からのChEBI-20記述生成では、一般的なベースラインを超え、最先端のビジョン言語モデルと一致する。
コードはhttps://github.com/1anj/DeepMoLM.comで入手できる。
関連論文リスト
- KnowMol: Advancing Molecular Large Language Models with Multi-Level Chemical Knowledge [73.51130155601824]
KnowMol-100Kは100Kの微細な分子アノテーションを持つ大規模データセットである。
また,既存の分子表現戦略の限界に効果的に対処する,化学的に不変な分子表現も提案する。
KnowMolは、分子理解および生成タスク間で優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-10-22T11:23:58Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - MolMetaLM: a Physicochemical Knowledge-Guided Molecular Meta Language Model [19.458584012046646]
本稿では,分子メタ言語フレームワーク MolMetaLM を提案する。
我々は、同じS(分子)を共有する複数のS,P,O>知識トリプルとしてフォーマットされた分子特化メタ言語パラダイムを設計する。
異なる分子知識とノイズを導入することで、メタ言語パラダイムは数万の事前学習タスクを生成する。
論文 参考訳(メタデータ) (2024-11-23T09:27:38Z) - 3D-MolT5: Leveraging Discrete Structural Information for Molecule-Text Modeling [41.07090635630771]
分子を配列空間と3次元構造空間の両方でモデル化する統合フレームワークである textbf3D-MolT5 を提案する。
このアプローチの鍵となる革新は、きめ細かい3Dサブ構造表現を特別な3Dトークン語彙にマッピングすることである。
当社のアプローチは、これまでの作業における重要な課題に対処しながら、モーダル間相互作用とアライメントを大幅に改善します。
論文 参考訳(メタデータ) (2024-06-09T14:20:55Z) - Towards 3D Molecule-Text Interpretation in Language Models [125.56693661827181]
3D-MoLMは、LMに3D分子エンコーダを装着することで、3D分子の解釈と解析を可能にする。
この積分は、3D分子テキストプロジェクターによって達成され、3D分子エンコーダの表現空間とLMの入力空間をブリッジする。
我々は、3D分子中心の命令チューニングデータセット -- 3D-MoITを慎重にキュレートした。
論文 参考訳(メタデータ) (2024-01-25T03:42:00Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z) - GIT-Mol: A Multi-modal Large Language Model for Molecular Science with
Graph, Image, and Text [25.979382232281786]
グラフ,画像,テキスト情報を統合したマルチモーダルな大規模言語モデルであるGIT-Molを紹介する。
特性予測の精度は5%-10%向上し、分子生成の妥当性は20.2%向上した。
論文 参考訳(メタデータ) (2023-08-14T03:12:29Z) - An Equivariant Generative Framework for Molecular Graph-Structure
Co-Design [54.92529253182004]
分子グラフ構造アンダーラインCo設計のための機械学習ベースの生成フレームワークであるMollCodeを提案する。
MolCodeでは、3D幾何情報によって分子2Dグラフの生成が促進され、それによって分子3D構造の予測が導かれる。
分子設計における2次元トポロジーと3次元幾何は本質的に相補的な情報を含んでいることが明らかとなった。
論文 参考訳(メタデータ) (2023-04-12T13:34:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。