論文の概要: Bridging Molecular Graphs and Large Language Models
- arxiv url: http://arxiv.org/abs/2503.03135v1
- Date: Wed, 05 Mar 2025 03:15:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:39.433599
- Title: Bridging Molecular Graphs and Large Language Models
- Title(参考訳): ブリッジング分子グラフと大規模言語モデル
- Authors: Runze Wang, Mingqi Yang, Yanming Shen,
- Abstract要約: 大規模言語モデル(LLM)は例外的な一般化能力を示しているが、分子構造のようなグラフデータを処理する能力は依然として限られている。
本稿では,LLMトークンにグラフトークンをアライメントする効率的なソリューションであるGraph2Tokenを提案する。
分子分類および回帰タスクに関する大規模な実験により,提案したGraph2Tokenの有効性が示された。
- 参考スコア(独自算出の注目度): 10.647911401603801
- License:
- Abstract: While Large Language Models (LLMs) have shown exceptional generalization capabilities, their ability to process graph data, such as molecular structures, remains limited. To bridge this gap, this paper proposes Graph2Token, an efficient solution that aligns graph tokens to LLM tokens. The key idea is to represent a graph token with the LLM token vocabulary, without fine-tuning the LLM backbone. To achieve this goal, we first construct a molecule-text paired dataset from multisources, including CHEBI and HMDB, to train a graph structure encoder, which reduces the distance between graphs and texts representations in the feature space. Then, we propose a novel alignment strategy that associates a graph token with LLM tokens. To further unleash the potential of LLMs, we collect molecular IUPAC name identifiers, which are incorporated into the LLM prompts. By aligning molecular graphs as special tokens, we can activate LLM generalization ability to molecular few-shot learning. Extensive experiments on molecular classification and regression tasks demonstrate the effectiveness of our proposed Graph2Token.
- Abstract(参考訳): 大規模言語モデル(LLM)は例外的な一般化能力を示しているが、分子構造などのグラフデータを処理する能力は依然として限られている。
このギャップを埋めるために,グラフトークンをLLMトークンに整列させる効率的なソリューションであるGraph2Tokenを提案する。
鍵となる考え方は、LSMのバックボーンを微調整することなく、LSMのトークン語彙でグラフトークンを表現することである。
この目的を達成するために、我々はまず、CHEBIやHMDBを含むマルチソースから分子文ペアデータセットを構築し、グラフ構造エンコーダを訓練し、特徴空間におけるグラフとテキスト表現間の距離を減らす。
次に,LLMトークンとグラフトークンを関連付ける新しいアライメント戦略を提案する。
LLMの可能性をさらに解き放つために、分子IUPAC名識別子を収集し、LLMプロンプトに組み込む。
分子グラフを特別なトークンとして整列させることで、分子小ショット学習にLLM一般化能力を活性化することができる。
分子分類および回帰タスクに関する大規模な実験により,提案したGraph2Tokenの有効性が示された。
関連論文リスト
- Each Graph is a New Language: Graph Learning with LLMs [9.22463167477865]
textbfGraph-textbfDefined textbfLanguage for textbfLarge textbfLanguage textbfModel (GDL4LLM)を提案する。
GDL4LLMはグラフをグラフ記述の代わりにグラフ言語コーパスに変換し、グラフ構造を適切に理解するために、このコーパス上のLLMを事前訓練する。
論文 参考訳(メタデータ) (2025-01-20T13:20:41Z) - Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。
既存の手法は、自己監督タスクと下流タスクの間に不一致がある。
協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:50:34Z) - LLMs as Zero-shot Graph Learners: Alignment of GNN Representations with LLM Token Embeddings [7.302176015732192]
Token Embedding-Aligned Graph Language Model (TEA-GLM) という新しいフレームワークを紹介する。
我々はGNNを事前訓練し、その表現をLLMのトークン埋め込みと整列する。
次に、GNNの表現を固定数のグラフトークン埋め込みに変換する線形プロジェクタを訓練する。
論文 参考訳(メタデータ) (2024-08-25T04:32:45Z) - HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment [41.75926736949724]
我々は,大規模言語モデル(LLM)のグラフ認識を改善するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
7つの分子中心のベンチマークによる実験では、幻覚を40%減らすためのHighTの有効性が確認され、また、様々な分子言語による下流タスクの大幅な改善も確認された。
論文 参考訳(メタデータ) (2024-06-20T06:37:35Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - Large Language Models on Graphs: A Comprehensive Survey [77.16803297418201]
グラフ上の大規模言語モデルに関連するシナリオとテクニックを体系的にレビューする。
まず,LLMをグラフに適用する可能性シナリオを,純グラフ,テキスト分散グラフ,テキストペアグラフの3つのカテゴリにまとめる。
本稿では,そのような手法の現実的な応用について論じ,オープンソースコードとベンチマークデータセットを要約する。
論文 参考訳(メタデータ) (2023-12-05T14:14:27Z) - Integrating Graphs with Large Language Models: Methods and Prospects [68.37584693537555]
大規模言語モデル (LLMs) が最前線として登場し、様々なアプリケーションにおいて非並列の長所を示している。
LLMとグラフ構造化データを組み合わせることは、非常に興味深いトピックです。
本稿では、そのような統合を2つの主要なカテゴリに分岐する。
論文 参考訳(メタデータ) (2023-10-09T07:59:34Z) - Exploring the Potential of Large Language Models (LLMs) in Learning on
Graphs [59.74814230246034]
大規模言語モデル(LLM)は、広範な共通知識と強力な意味理解能力を持つことが証明されている。
LLMs-as-EnhancersとLLMs-as-Predictorsの2つのパイプラインについて検討する。
論文 参考訳(メタデータ) (2023-07-07T05:31:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。