論文の概要: HIGHT: Hierarchical Graph Tokenization for Molecule-Language Alignment
- arxiv url: http://arxiv.org/abs/2406.14021v2
- Date: Fri, 06 Jun 2025 13:09:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:42.620851
- Title: HIGHT: Hierarchical Graph Tokenization for Molecule-Language Alignment
- Title(参考訳): HighT: 分子言語アライメントのための階層型グラフトークン化
- Authors: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian,
- Abstract要約: 大規模言語モデル(LLM)の分子認識を改善するために,原子,モチーフ,分子レベルの情報トークンを符号化したグラフトークン化器を提案する。
実世界の14のベンチマーク実験では、幻覚の40%削減におけるHighTの有効性が検証され、様々な分子言語下流タスクにおいて顕著に改善された。
- 参考スコア(独自算出の注目度): 41.75926736949724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, there has been a surge of interest in extending the success of large language models (LLMs) from texts to molecules. Most existing approaches adopt a graph neural network to represent a molecule as a series of node tokens for molecule-language alignment, which, however, have overlooked the inherent hierarchical structures in molecules. Notably, higher-order molecular structures contain rich semantics of functional groups, which encode crucial biochemical functionalities of the molecules. We show that neglecting the hierarchical information in tokenization will lead to subpar molecule-language alignment and severe hallucination. To address this limitation, we propose HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that encodes the hierarchy of atom, motif, and molecular levels of informative tokens to improve the molecular perception of LLMs. HIGHT also adopts an augmented instruction tuning dataset, enriched with the hierarchical graph information, to further enhance the molecule-language alignment. Extensive experiments on 14 real-world benchmarks verify the effectiveness of HIGHT in reducing hallucination by 40%, and significant improvements in various molecule-language downstream tasks. The project is available at https: //higraphllm.github.io/.
- Abstract(参考訳): 近年,テキストから分子への大規模言語モデル(LLM)の成功への関心が高まっている。
既存のほとんどのアプローチでは、分子を分子言語アライメントの一連のノードトークンとして表現するためにグラフニューラルネットワークを採用しており、分子の固有の階層構造を見落としている。
特に、高次分子構造は官能基の豊富な意味を持ち、分子の重要な生化学的機能をコードしている。
トークン化における階層的情報の無視は,分子言語的アライメントと重度の幻覚に繋がることを示す。
この制限に対処するため,階層型GrapHトークン化(HIGHT)を提案する。
HighTは、LLMの分子認識を改善するために、原子、モチーフ、および分子レベルの情報トークンをコードする階層的なグラフトークン化器を使用している。
HighTはまた、分子言語アライメントをさらに強化するために、階層グラフ情報に富んだ拡張命令チューニングデータセットも採用している。
14の実世界のベンチマークによる大規模な実験では、幻覚の40%削減におけるHighTの有効性が検証され、様々な分子言語下流タスクにおいて顕著に改善された。
このプロジェクトはhttps: //higraphllm.github.io/で公開されている。
関連論文リスト
- Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフパターンから直接学習するためのフレームワークであるNeural Graph Pattern Machine (GPM)を提案する。
GPMは、下流タスクにおいて最も関連性の高いものを特定しながら、下位構造を効率的に抽出し、エンコードする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - Query-Aware Learnable Graph Pooling Tokens as Prompt for Large Language Models [3.9489815622117566]
Learnable Graph Pooling Token (LGPT)は、フレキシブルで効率的なグラフ表現を可能にする。
提案手法は,大規模言語モデルを訓練することなく,GraphQAベンチマークで4.13%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-29T10:35:41Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Graph Linearization Methods for Reasoning on Graphs with Large Language Models [25.3545522174459]
グラフは、ローカル依存やグローバルアライメントなど、自然言語テキストの特定の特性を反映するように線形化されるべきである。
本稿では,グラフの中央性,縮退性,ノードの可逆性に基づくグラフ線形化手法を提案する。
本研究は,LLMに適した新しいグラフ表現を導入し,マルチモーダル処理のトレンドとグラフ機械学習の潜在的な統合に寄与する。
論文 参考訳(メタデータ) (2024-10-25T11:51:37Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - Structure-free Graph Condensation: From Large-scale Graphs to Condensed
Graph-free Data [91.27527985415007]
既存のグラフ凝縮法は、凝縮グラフ内のノードと構造の合同最適化に依存している。
我々は、大規模グラフを小さなグラフノード集合に蒸留する、SFGCと呼ばれる新しい構造自由グラフ凝縮パラダイムを提唱する。
論文 参考訳(メタデータ) (2023-06-05T07:53:52Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Multi-Level Graph Contrastive Learning [38.022118893733804]
本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。
元のグラフは1次近似構造であり、不確実性や誤りを含むが、符号化機能によって生成された$k$NNグラフは高次近接性を保持する。
MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-06T14:24:43Z) - Hierarchical Inter-Message Passing for Learning on Molecular Graphs [9.478108870211365]
分子グラフを学習するための階層型ニューラルメッセージパッシングアーキテクチャを提案する。
我々の手法は、サイクルの検出など、古典的なGNNで知られているいくつかの制限を克服することができるが、それでも訓練は非常に効率的である。
論文 参考訳(メタデータ) (2020-06-22T12:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。