論文の概要: Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2411.04708v2
- Date: Thu, 13 Feb 2025 14:06:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-14 15:38:05.916884
- Title: Exploring Hierarchical Molecular Graph Representation in Multimodal LLMs
- Title(参考訳): 多モードLDMにおける階層的分子グラフ表現の探索
- Authors: Chengxin Hu, Hao Li, Yihe Yuan, Jing Li, Ivor Tsang,
- Abstract要約: 各種グラフの特徴レベルがモデル性能に及ぼす影響について検討する。
1)現在の分子関連マルチモーダルLCMはグラフの特徴の包括的理解に欠けており、(2)静的処理は階層グラフの特徴に不十分である。
- 参考スコア(独自算出の注目度): 6.770274624885797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the milestones in large language models (LLMs) and multimodal models, we have seen a surge in applying LLMs to biochemical tasks. Leveraging graph features and molecular text representations, LLMs can tackle various tasks, such as predicting chemical reaction outcomes and describing molecular properties. However, most current work overlooks the *multi-level nature* of the graph modality, even though different chemistry tasks may benefit from different feature levels. In this work, we first study the effect of feature granularity and reveal that even reducing all GNN-generated feature tokens to a single one does not significantly impact model performance. We then investigate the effect of various graph feature levels and demonstrate that both the quality of LLM-generated molecules and model performance across different tasks depend on different graph feature levels. Therefore, we conclude with two key insights: (1) current molecular-related multimodal LLMs lack a comprehensive understanding of graph features, and (2) static processing is not sufficient for hierarchical graph feature. We share our findings in detail, with the hope of paving the way for the community to develop more advanced multimodal LLMs for incorporating molecular graphs.
- Abstract(参考訳): 大規模言語モデル (LLM) とマルチモーダルモデル (Multimodal model) のマイルストーンに続いて, LLM の生化学への応用が急増している。
グラフの特徴と分子テキスト表現を活用することで、LCMは化学反応の結果の予測や分子特性の記述など、様々なタスクに取り組むことができる。
しかしながら、現在のほとんどの研究は、異なる化学タスクが異なる特徴レベルから恩恵を受けるとしても、グラフモダリティの*マルチレベルの性質*を見落としている。
本研究では,まず特徴粒度の影響について検討し,GNN生成した特徴トークンを1個に減らしても,モデル性能に大きな影響を与えないことを明らかにした。
次に, 種々のグラフ特徴量の影響について検討し, LLM生成分子の品質とタスク間のモデル性能がグラフ特徴量に依存することを示した。
したがって,1) 現在の分子関連マルチモーダルLCMは, グラフの特徴の包括的理解が欠如しており, (2) 静的処理は階層グラフの特徴に十分ではない。
我々は、分子グラフを組み込むための、より高度なマルチモーダルLCMを開発するための、コミュニティの道を開くことを願って、我々の研究成果を詳細に共有する。
関連論文リスト
- MolCap-Arena: A Comprehensive Captioning Benchmark on Language-Enhanced Molecular Property Prediction [44.27112553103388]
分子特性予測を拡張した大規模言語モデル(LLM)の最初の包括的なベンチマークである分子キャプションアリーナを提示する。
汎用分子キャプタとドメイン特異的分子キャプタを含む20以上のLDMを,様々な予測タスクで評価した。
以上の結果から,LLM抽出した知識が最先端の分子表現を向上する可能性が示唆された。
論文 参考訳(メタデータ) (2024-11-01T17:03:16Z) - MC-Bench: A Benchmark for Multi-Context Visual Grounding in the Era of MLLMs [61.56904387052982]
本稿では,マルチコンテキストの視覚的グラウンド化という新しい視覚的グラウンド化タスクを提案する。
オープンなテキストプロンプトに基づいて、複数の画像にまたがる関心のインスタンスをローカライズすることを目的としている。
我々は20以上の最先端MLLMと基盤モデルをベンチマークし、潜在的にマルチコンテキストの視覚的グラウンド化機能を有する。
論文 参考訳(メタデータ) (2024-10-16T07:52:57Z) - Multimodal Large Language Models for Inverse Molecular Design with Retrosynthetic Planning [32.745100532916204]
大型言語モデル(LLM)は統合されたイメージを持つが、それらをグラフに適応させることは依然として困難である。
Llamoleは、インターリーブテキストとグラフ生成が可能な最初のマルチモーダルLLMである。
Llamoleは、制御可能な分子設計と再合成計画のために、12のメトリクスにまたがる14の適応LDMを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-05T16:35:32Z) - How Do Large Language Models Understand Graph Patterns? A Benchmark for Graph Pattern Comprehension [53.6373473053431]
この研究は、グラフパターンタスクにおける大規模言語モデルの能力を評価するためのベンチマークを導入する。
我々は,LLMが用語的記述と位相的記述の両方に基づいて,グラフパターンを理解できるかどうかを評価するベンチマークを開発した。
私たちのベンチマークでは、合成データセットと実際のデータセットの両方と、11のタスクと7のモデルで構成されています。
論文 参考訳(メタデータ) (2024-10-04T04:48:33Z) - Towards Semantic Equivalence of Tokenization in Multimodal LLM [149.11720372278273]
視覚トークン化は、視覚と言語間のセマンティックアライメントに不可欠である。
本稿では,新しい動的セマンティック等価ビジョントケナイザ(SeTok)を提案する。
SeTokは動的クラスタリングアルゴリズムを通じて、視覚的特徴をセマンティックユニットにグループ化する。
結果として得られる視覚トークンは意味的整合性を効果的に保持し、低周波と高周波の両方の視覚特徴をキャプチャする。
論文 参考訳(メタデータ) (2024-06-07T17:55:43Z) - LLM and GNN are Complementary: Distilling LLM for Multimodal Graph Learning [26.980622926162933]
マルチモーダル分子データを用いた大規模言語モデル(LLM)からの洞察を抽出する革新的なフレームワークを提案する。
マルチモーダル知識をMLP(Multilayer Perceptron)に蒸留することにより,LLMとグラフニューラルネットワーク(GNN)の機能を相乗化するフレームワークであるGALLONを紹介する。
論文 参考訳(メタデータ) (2024-06-03T06:33:51Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - Exploring the Potential of Large Language Models in Graph Generation [51.046188600990014]
グラフ生成は、与えられたプロパティを持つグラフを生成するために、大きな言語モデル(LLM)を必要とする。
本稿では,LLMのグラフ生成能力について,系統的なタスク設計と実験による検討を行う。
評価の結果,LLM,特にGPT-4は,グラフ生成タスクに予備的能力を示すことがわかった。
論文 参考訳(メタデータ) (2024-03-21T12:37:54Z) - Benchmarking Large Language Models for Molecule Prediction Tasks [7.067145619709089]
大規模言語モデル(LLM)は多くの自然言語処理(NLP)タスクの最前線にある。
LLMは分子予測タスクを効果的に扱えるのか?
6つの標準分子データセットの分類および回帰予測タスクを同定する。
テキストベースのモデルと、分子の幾何学的構造を分析するために特別に設計されたモデルを含む、既存の機械学習(ML)モデルと比較する。
論文 参考訳(メタデータ) (2024-03-08T05:59:56Z) - Mementos: A Comprehensive Benchmark for Multimodal Large Language Model
Reasoning over Image Sequences [80.54979242912944]
本稿では,MLLMの逐次画像推論能力を評価するためのベンチマークであるMementosを紹介する。
MLLMは与えられた画像列の動的情報を正確に記述するのに苦労しており、しばしば幻覚/誤表現につながる。
論文 参考訳(メタデータ) (2024-01-19T07:10:13Z) - LLM4DyG: Can Large Language Models Solve Spatial-Temporal Problems on Dynamic Graphs? [56.85995048874959]
本稿では,大規模言語モデルの動的グラフ上での時空間理解能力を評価することを提案する。
我々は、異なるデータ生成装置、データ統計、プロンプト技術、LLMがモデル性能に与える影響を分析する実験を行う。
最後に, LLM の時空間理解能力を高めるために, 動的グラフ上の LLM に対する Disentangled Spatial-Temporal Thoughts (DST2) を提案する。
論文 参考訳(メタデータ) (2023-10-26T02:37:43Z) - UniMAP: Universal SMILES-Graph Representation Learning [21.25038529787392]
ユニバーサルSMILEグラフ表現学習モデル(UniMAP)を提案する。
CMM(Multi-Level Cross-Modality Masking)、SMILES-Graph Matching(SGM)、FLA(Fragment-Level Alignment)、ドメイン知識学習(DKL)の4種類の事前学習タスクがユニマップ向けに設計されている。
実験の結果,UniMAPは最先端の事前学習方法よりも優れていた。
論文 参考訳(メタデータ) (2023-10-22T07:48:33Z) - Can Large Language Models Empower Molecular Property Prediction? [16.5246941211725]
分子特性の予測は、科学分野における形質転換の可能性によって大きな注目を集めている。
近年,Large Language Models (LLMs) が急速に発展し,NLPの分野に革命をもたらした。
本研究では、ゼロ/フェーショットの分子分類と、LLMによって生成された新しい説明を分子の表現として用いるという2つの視点を通して、この目的に向けて前進する。
論文 参考訳(メタデータ) (2023-07-14T16:06:42Z) - Bi-level Contrastive Learning for Knowledge-Enhanced Molecule Representations [68.32093648671496]
分子に固有の二重レベル構造を考慮に入れたGODEを導入する。
分子は固有のグラフ構造を持ち、より広い分子知識グラフ内のノードとして機能する。
異なるグラフ構造上の2つのGNNを事前学習することにより、GODEは対応する知識グラフサブ構造と分子構造を効果的に融合させる。
論文 参考訳(メタデータ) (2023-06-02T15:49:45Z) - GIMLET: A Unified Graph-Text Model for Instruction-Based Molecule
Zero-Shot Learning [71.89623260998934]
本研究は,ゼロショット環境下での分子関連タスクの実現に自然言語命令を用いることの実現可能性について検討する。
既存の分子テキストモデルは、命令の不十分な処理とグラフの限られた容量のために、この設定では性能が良くない。
グラフデータとテキストデータの両方の言語モデルを統合するGIMLETを提案する。
論文 参考訳(メタデータ) (2023-05-28T18:27:59Z) - Enhancing Model Learning and Interpretation Using Multiple Molecular
Graph Representations for Compound Property and Activity Prediction [0.0]
本研究では,高次情報を含む複数の分子グラフ表現を導入する。
モデル学習と多様な視点からの解釈に対するそれらの効果について研究する。
その結果, 原子グラフ表現と分子グラフ表現の低減を組み合わせれば, 有望なモデル性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-04-13T04:20:30Z) - Multi-View Graph Neural Networks for Molecular Property Prediction [67.54644592806876]
マルチビューグラフニューラルネットワーク(MV-GNN)を提案する。
MV-GNNでは,学習過程を安定させるために,自己注意型読み出しコンポーネントと不一致損失を導入する。
我々は、相互依存型メッセージパッシング方式を提案することにより、MV-GNNの表現力をさらに強化する。
論文 参考訳(メタデータ) (2020-05-17T04:46:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。