論文の概要: HIGHT: Hierarchical Graph Tokenization for Molecule-Language Alignment
- arxiv url: http://arxiv.org/abs/2406.14021v2
- Date: Fri, 06 Jun 2025 13:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.620851
- Title: HIGHT: Hierarchical Graph Tokenization for Molecule-Language Alignment
- Title(参考訳): HighT: 分子言語アライメントのための階層型グラフトークン化
- Authors: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian,
- Abstract要約: 大規模言語モデル(LLM)の分子認識を改善するために,原子,モチーフ,分子レベルの情報トークンを符号化したグラフトークン化器を提案する。
実世界の14のベンチマーク実験では、幻覚の40%削減におけるHighTの有効性が検証され、様々な分子言語下流タスクにおいて顕著に改善された。
- 参考スコア(独自算出の注目度): 41.75926736949724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, there has been a surge of interest in extending the success of large language models (LLMs) from texts to molecules. Most existing approaches adopt a graph neural network to represent a molecule as a series of node tokens for molecule-language alignment, which, however, have overlooked the inherent hierarchical structures in molecules. Notably, higher-order molecular structures contain rich semantics of functional groups, which encode crucial biochemical functionalities of the molecules. We show that neglecting the hierarchical information in tokenization will lead to subpar molecule-language alignment and severe hallucination. To address this limitation, we propose HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that encodes the hierarchy of atom, motif, and molecular levels of informative tokens to improve the molecular perception of LLMs. HIGHT also adopts an augmented instruction tuning dataset, enriched with the hierarchical graph information, to further enhance the molecule-language alignment. Extensive experiments on 14 real-world benchmarks verify the effectiveness of HIGHT in reducing hallucination by 40%, and significant improvements in various molecule-language downstream tasks. The project is available at https: //higraphllm.github.io/.
- Abstract(参考訳): 近年,テキストから分子への大規模言語モデル(LLM)の成功への関心が高まっている。
既存のほとんどのアプローチでは、分子を分子言語アライメントの一連のノードトークンとして表現するためにグラフニューラルネットワークを採用しており、分子の固有の階層構造を見落としている。
特に、高次分子構造は官能基の豊富な意味を持ち、分子の重要な生化学的機能をコードしている。
トークン化における階層的情報の無視は,分子言語的アライメントと重度の幻覚に繋がることを示す。
この制限に対処するため,階層型GrapHトークン化(HIGHT)を提案する。
HighTは、LLMの分子認識を改善するために、原子、モチーフ、および分子レベルの情報トークンをコードする階層的なグラフトークン化器を使用している。
HighTはまた、分子言語アライメントをさらに強化するために、階層グラフ情報に富んだ拡張命令チューニングデータセットも採用している。
14の実世界のベンチマークによる大規模な実験では、幻覚の40%削減におけるHighTの有効性が検証され、様々な分子言語下流タスクにおいて顕著に改善された。
このプロジェクトはhttps: //higraphllm.github.io/で公開されている。
関連論文リスト
- Bridging Molecular Graphs and Large Language Models [10.647911401603801]
大規模言語モデル(LLM)は例外的な一般化能力を示しているが、分子構造のようなグラフデータを処理する能力は依然として限られている。
本稿では,LLMトークンにグラフトークンをアライメントする効率的なソリューションであるGraph2Tokenを提案する。
分子分類および回帰タスクに関する大規模な実験により,提案したGraph2Tokenの有効性が示された。
論文 参考訳(メタデータ) (2025-03-05T03:15:38Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language [7.458295743918249]
本稿では,Language-based Automatic AugmentationフレームワークであるLA$3$を紹介した。
LA$3$の有効性を示すために、LaChEBI-20という拡張データセットを作成し、確立したデータセットから分子のアノテーションを書き換える。
ベンチマークアーキテクチャに基づいてLaMolT5をトレーニングし、分子表現と拡張アノテーションのマッピングを学習する。
論文 参考訳(メタデータ) (2025-02-10T16:29:21Z) - Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフパターンから直接学習するためのフレームワークであるNeural Graph Pattern Machine (GPM)を提案する。
GPMは、下流タスクにおいて最も関連性の高いものを特定しながら、下位構造を効率的に抽出し、エンコードする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - Query-Aware Learnable Graph Pooling Tokens as Prompt for Large Language Models [3.9489815622117566]
Learnable Graph Pooling Token (LGPT)は、フレキシブルで効率的なグラフ表現を可能にする。
提案手法は,大規模言語モデルを訓練することなく,GraphQAベンチマークで4.13%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-29T10:35:41Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Graph Linearization Methods for Reasoning on Graphs with Large Language Models [25.3545522174459]
グラフは、ローカル依存やグローバルアライメントなど、自然言語テキストの特定の特性を反映するように線形化されるべきである。
本稿では,グラフの中央性,縮退性,ノードの可逆性に基づくグラフ線形化手法を提案する。
本研究は,LLMに適した新しいグラフ表現を導入し,マルチモーダル処理のトレンドとグラフ機械学習の潜在的な統合に寄与する。
論文 参考訳(メタデータ) (2024-10-25T11:51:37Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Structure-free Graph Condensation: From Large-scale Graphs to Condensed
Graph-free Data [91.27527985415007]
既存のグラフ凝縮法は、凝縮グラフ内のノードと構造の合同最適化に依存している。
我々は、大規模グラフを小さなグラフノード集合に蒸留する、SFGCと呼ばれる新しい構造自由グラフ凝縮パラダイムを提唱する。
論文 参考訳(メタデータ) (2023-06-05T07:53:52Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Molecular Contrastive Learning with Chemical Element Knowledge Graph [16.136921143416927]
分子表現学習は、分子特性予測や薬物設計など、下流の複数のタスクに寄与する。
我々は,元素間の微視的関連を要約するケミカル要素知識グラフ(KG)を構築した。
最初のモジュールである知識誘導グラフ拡張は、ケミカル要素KGに基づいて元の分子グラフを増強する。
第2のモジュールである知識対応グラフ表現は、元の分子グラフの共通グラフエンコーダと知識対応メッセージパッシングニューラルネットワーク(KMPNN)を用いて分子表現を抽出し、拡張された分子グラフの複雑な情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-01T15:04:39Z) - Multi-Level Graph Contrastive Learning [38.022118893733804]
本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。
元のグラフは1次近似構造であり、不確実性や誤りを含むが、符号化機能によって生成された$k$NNグラフは高次近接性を保持する。
MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-06T14:24:43Z) - MolCLR: Molecular Contrastive Learning of Representations via Graph
Neural Networks [11.994553575596228]
MolCLRは、大規模なラベルなしの分子データセットのための自己監視学習フレームワークです。
原子マスキング、結合除去、サブグラフ除去の3つの新しい分子グラフ増強法を提案する。
提案手法は,多くの挑戦的データセットに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T17:35:18Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Hierarchical Inter-Message Passing for Learning on Molecular Graphs [9.478108870211365]
分子グラフを学習するための階層型ニューラルメッセージパッシングアーキテクチャを提案する。
我々の手法は、サイクルの検出など、古典的なGNNで知られているいくつかの制限を克服することができるが、それでも訓練は非常に効率的である。
論文 参考訳(メタデータ) (2020-06-22T12:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。