論文の概要: MolVision: Molecular Property Prediction with Vision Language Models
- arxiv url: http://arxiv.org/abs/2507.03283v1
- Date: Fri, 04 Jul 2025 04:15:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-08 15:46:34.655217
- Title: MolVision: Molecular Property Prediction with Vision Language Models
- Title(参考訳): MolVision:視覚言語モデルによる分子特性予測
- Authors: Deepan Adak, Yogesh Singh Rawat, Shruti Vyas,
- Abstract要約: MolVisionは、分子構造を画像とテキスト記述の両方に統合し、特性予測を強化する新しいアプローチである。
分類、回帰、記述タスクをカバーする10の多様なデータセットにまたがるベンチマークを構築した。
その結果,視覚情報だけでは不十分であるが,マルチモーダル融合は分子特性の一般化を著しく促進することが明らかとなった。
- 参考スコア(独自算出の注目度): 6.697702130929693
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Molecular property prediction is a fundamental task in computational chemistry with critical applications in drug discovery and materials science. While recent works have explored Large Language Models (LLMs) for this task, they primarily rely on textual molecular representations such as SMILES/SELFIES, which can be ambiguous and structurally less informative. In this work, we introduce MolVision, a novel approach that leverages Vision-Language Models (VLMs) by integrating both molecular structure as images and textual descriptions to enhance property prediction. We construct a benchmark spanning ten diverse datasets, covering classification, regression and description tasks. Evaluating nine different VLMs in zero-shot, few-shot, and fine-tuned settings, we find that visual information improves prediction performance, particularly when combined with efficient fine-tuning strategies such as LoRA. Our results reveal that while visual information alone is insufficient, multimodal fusion significantly enhances generalization across molecular properties. Adaptation of vision encoder for molecular images in conjunction with LoRA further improves the performance. The code and data is available at : $\href{https://molvision.github.io/MolVision/}{https://molvision.github.io/MolVision/}$.
- Abstract(参考訳): 分子特性予測は、化学計算における基本的な課題であり、薬物発見と材料科学における重要な応用である。
最近の研究では、このタスクのためにLarge Language Models (LLMs) を探索しているが、主にSMILES/SELFIESのようなテキスト分子表現に依存しており、曖昧で構造的にも情報に乏しい。
本稿では,視覚言語モデル(VLM)を利用した新しい手法であるMolVisionを紹介し,分子構造を画像とテキスト記述の両方に統合し,特性予測を強化する。
分類、回帰、記述タスクをカバーする10の多様なデータセットにまたがるベンチマークを構築した。
ゼロショット,少数ショット,微調整の設定において,9つの異なるVLMを評価することで,視覚情報により予測性能が向上し,特にLoRAのような効率的な微調整戦略が組み合わされた場合の予測性能が向上することがわかった。
その結果,視覚情報だけでは不十分であるが,マルチモーダル融合は分子特性の一般化を著しく促進することが明らかとなった。
LoRAと組み合わせた分子画像に対するビジョンエンコーダの適応により、さらに性能が向上する。
コードとデータは以下の通りである。 $\href{https://molvision.github.io/MolVision/}{https://molvision.github.io/MolVision/}$
関連論文リスト
- Improving Large Vision-Language Models' Understanding for Field Data [62.917026891829025]
本研究では、大規模ビジョン言語モデルのフィールドデータ理解を改善するためのフレームワークであるFieldLVLMを紹介する。
FieldLVLMは、フィールド対応言語生成戦略とデータ圧縮マルチモーダルモデルチューニングの2つの主要コンポーネントから構成される。
新たに提案されたベンチマークデータセットの実験結果から、フィールドLVLMは、科学的なフィールドデータを含むタスクにおいて、既存の手法を著しく上回っていることが示された。
論文 参考訳(メタデータ) (2025-07-24T11:28:53Z) - GTR-CoT: Graph Traversal as Visual Chain of Thought for Molecular Structure Recognition [60.76623665324548]
GTR-Mol-VLMは、2つの重要な革新を特徴とする新しいフレームワークである。
シーケンシャルな原子結合予測を通じて分子グラフを段階的に解析することで、人間の推論をエミュレートする。
MolRec-BenchはOCSRにおけるグラフパーシング精度の詳細な評価のために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-06-09T08:47:10Z) - Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs [6.770274624885797]
各種グラフの特徴レベルがモデル性能に及ぼす影響について検討する。
1)現在の分子関連マルチモーダルLCMはグラフの特徴の包括的理解に欠けており、(2)静的処理は階層グラフの特徴に不十分である。
論文 参考訳(メタデータ) (2024-11-07T13:45:26Z) - Cross-Modal Learning for Chemistry Property Prediction: Large Language Models Meet Graph Machine Learning [0.0]
グラフニューラルネットワーク(GNN)の分析能力と大規模言語モデル(LLM)の言語生成・予測能力を利用する多モード融合(MMF)フレームワークを提案する。
本フレームワークは,グラフ構造化データのモデリングにおけるGNNの有効性とLLMのゼロショットおよび少数ショット学習能力を組み合わせることにより,オーバーフィッティングのリスクを低減し,予測の改善を実現する。
論文 参考訳(メタデータ) (2024-08-27T11:10:39Z) - Cambrian-1: A Fully Open, Vision-Centric Exploration of Multimodal LLMs [61.143381152739046]
視覚中心のアプローチで設計したマルチモーダルLLM(MLLM)のファミリーであるCambrian-1を紹介する。
本研究は,様々な視覚表現を評価するためのインタフェースとして,LLMとビジュアルインストラクションチューニングを用いた。
モデルウェイト、コード、サポートツール、データセット、詳細なインストラクションチューニングと評価のレシピを提供しています。
論文 参考訳(メタデータ) (2024-06-24T17:59:42Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - CODIS: Benchmarking Context-Dependent Visual Comprehension for Multimodal Large Language Models [58.95889895912716]
我々は、自由形式のテキストで提供されるコンテキストを用いて視覚的理解を高めるモデルの有効性を評価するために、CODISと名付けられた新しいベンチマークを導入する。
以上の結果から,MLLMは必ずしも人体性能に劣っていることが示唆された。
このことは、MLLMが視覚を文脈依存的に理解する能力を高めることの必要性を浮き彫りにする。
論文 参考訳(メタデータ) (2024-02-21T08:21:12Z) - Multi-Modal Representation Learning for Molecular Property Prediction:
Sequence, Graph, Geometry [6.049566024728809]
深層学習に基づく分子特性予測は、従来の手法の資源集約性に対する解決策として登場した。
本稿では,分子特性予測のための新しいマルチモーダル表現学習モデルSGGRLを提案する。
モダリティ間の整合性を確保するため、SGGRLは異なる分子の類似性を最小化しながら同じ分子の表現の類似性を最大化するように訓練される。
論文 参考訳(メタデータ) (2024-01-07T02:18:00Z) - MultiModal-Learning for Predicting Molecular Properties: A Framework Based on Image and Graph Structures [2.5563339057415218]
MolIGは、画像とグラフ構造に基づいて分子特性を予測するための、新しいMultiModaL分子事前学習フレームワークである。
両者の分子表現の強さを融合させる。
ベンチマークグループ内の分子特性予測に関連する下流タスクでは、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2023-11-28T10:28:35Z) - MolCA: Molecular Graph-Language Modeling with Cross-Modal Projector and
Uni-Modal Adapter [91.77292826067465]
言語モデル(LM)は、様々な1Dテキスト関連タスクにおいて、印象的な分子理解能力を示す。
しかし、それらは本質的に2次元グラフの認識を欠いている。
クロスモーダルプロジェクタとユニモーダルアダプタを用いた分子グラフ言語モデリング(MolCA: Molecular Graph-Language Modeling)を提案する。
論文 参考訳(メタデータ) (2023-10-19T14:52:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。