論文の概要: MolVision: Molecular Property Prediction with Vision Language Models
- arxiv url: http://arxiv.org/abs/2507.03283v1
- Date: Fri, 04 Jul 2025 04:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.655217
- Title: MolVision: Molecular Property Prediction with Vision Language Models
- Title(参考訳): MolVision:視覚言語モデルによる分子特性予測
- Authors: Deepan Adak, Yogesh Singh Rawat, Shruti Vyas,
- Abstract要約: MolVisionは、分子構造を画像とテキスト記述の両方に統合し、特性予測を強化する新しいアプローチである。
分類、回帰、記述タスクをカバーする10の多様なデータセットにまたがるベンチマークを構築した。
その結果,視覚情報だけでは不十分であるが,マルチモーダル融合は分子特性の一般化を著しく促進することが明らかとなった。
- 参考スコア(独自算出の注目度): 6.697702130929693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular property prediction is a fundamental task in computational chemistry with critical applications in drug discovery and materials science. While recent works have explored Large Language Models (LLMs) for this task, they primarily rely on textual molecular representations such as SMILES/SELFIES, which can be ambiguous and structurally less informative. In this work, we introduce MolVision, a novel approach that leverages Vision-Language Models (VLMs) by integrating both molecular structure as images and textual descriptions to enhance property prediction. We construct a benchmark spanning ten diverse datasets, covering classification, regression and description tasks. Evaluating nine different VLMs in zero-shot, few-shot, and fine-tuned settings, we find that visual information improves prediction performance, particularly when combined with efficient fine-tuning strategies such as LoRA. Our results reveal that while visual information alone is insufficient, multimodal fusion significantly enhances generalization across molecular properties. Adaptation of vision encoder for molecular images in conjunction with LoRA further improves the performance. The code and data is available at : $\href{https://molvision.github.io/MolVision/}{https://molvision.github.io/MolVision/}$.
- Abstract(参考訳): 分子特性予測は、化学計算における基本的な課題であり、薬物発見と材料科学における重要な応用である。
最近の研究では、このタスクのためにLarge Language Models (LLMs) を探索しているが、主にSMILES/SELFIESのようなテキスト分子表現に依存しており、曖昧で構造的にも情報に乏しい。
本稿では,視覚言語モデル(VLM)を利用した新しい手法であるMolVisionを紹介し,分子構造を画像とテキスト記述の両方に統合し,特性予測を強化する。
分類、回帰、記述タスクをカバーする10の多様なデータセットにまたがるベンチマークを構築した。
ゼロショット,少数ショット,微調整の設定において,9つの異なるVLMを評価することで,視覚情報により予測性能が向上し,特にLoRAのような効率的な微調整戦略が組み合わされた場合の予測性能が向上することがわかった。
その結果,視覚情報だけでは不十分であるが,マルチモーダル融合は分子特性の一般化を著しく促進することが明らかとなった。
LoRAと組み合わせた分子画像に対するビジョンエンコーダの適応により、さらに性能が向上する。
コードとデータは以下の通りである。 $\href{https://molvision.github.io/MolVision/}{https://molvision.github.io/MolVision/}$
関連論文リスト
- Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs [6.770274624885797]
各種グラフの特徴レベルがモデル性能に及ぼす影響について検討する。
1)現在の分子関連マルチモーダルLCMはグラフの特徴の包括的理解に欠けており、(2)静的処理は階層グラフの特徴に不十分である。
論文 参考訳(メタデータ) (2024-11-07T13:45:26Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。