論文の概要: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment
- arxiv url: http://arxiv.org/abs/2406.14021v1
- Date: Thu, 20 Jun 2024 06:37:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-06-21 15:10:05.756383
- Title: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment
- Title(参考訳): HighT: グラフ言語アライメントのための階層的なグラフトークン化
- Authors: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian,
- Abstract要約: 我々は,大規模言語モデル(LLM)のグラフ認識を改善するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
7つの分子中心のベンチマークによる実験では、幻覚を40%減らすためのHighTの有効性が確認され、また、様々な分子言語による下流タスクの大幅な改善も確認された。
- 参考スコア(独自算出の注目度): 41.75926736949724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently there has been a surge of interest in extending the success of large language models (LLMs) to graph modality, such as social networks and molecules. As LLMs are predominantly trained with 1D text data, most existing approaches adopt a graph neural network to represent a graph as a series of node tokens and feed these tokens to LLMs for graph-language alignment. Despite achieving some successes, existing approaches have overlooked the hierarchical structures that are inherent in graph data. Especially, in molecular graphs, the high-order structural information contains rich semantics of molecular functional groups, which encode crucial biochemical functionalities of the molecules. We establish a simple benchmark showing that neglecting the hierarchical information in graph tokenization will lead to subpar graph-language alignment and severe hallucination in generated outputs. To address this problem, we propose a novel strategy called HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that extracts and encodes the hierarchy of node, motif, and graph levels of informative tokens to improve the graph perception of LLMs. HIGHT also adopts an augmented graph-language supervised fine-tuning dataset, enriched with the hierarchical graph information, to further enhance the graph-language alignment. Extensive experiments on 7 molecule-centric benchmarks confirm the effectiveness of HIGHT in reducing hallucination by 40%, as well as significant improvements in various molecule-language downstream tasks.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の成功を,ソーシャルネットワークや分子などのグラフモダリティに拡張することへの関心が高まっている。
LLMは1Dテキストデータで主に訓練されているため、既存のほとんどのアプローチでは、グラフを一連のノードトークンとして表現し、これらのトークンをLLMに供給してグラフ言語アライメントするグラフニューラルネットワークを採用している。
いくつかの成功にもかかわらず、既存のアプローチはグラフデータに固有の階層構造を見落としている。
特に、分子グラフでは、高次構造情報は分子の機能群の豊富な意味を含み、分子の重要な生化学的機能をコードしている。
グラフトークン化における階層的情報の無視は、グラフ言語アライメントと、生成した出力における深刻な幻覚に繋がることを示す単純なベンチマークを確立する。
この問題に対処するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
HighTはまた、階層的なグラフ情報に富んだグラフ言語教師付き微調整データセットを導入し、グラフ言語アライメントをさらに強化する。
7つの分子中心のベンチマークによる広範囲な実験により、幻覚の40%削減におけるHighTの有効性が確認され、また、様々な分子言語下流タスクにおいて顕著な改善がなされた。
関連論文リスト
- Bridging Molecular Graphs and Large Language Models [10.647911401603801]
大規模言語モデル(LLM)は例外的な一般化能力を示しているが、分子構造のようなグラフデータを処理する能力は依然として限られている。
本稿では,LLMトークンにグラフトークンをアライメントする効率的なソリューションであるGraph2Tokenを提案する。
分子分類および回帰タスクに関する大規模な実験により,提案したGraph2Tokenの有効性が示された。
論文 参考訳(メタデータ) (2025-03-05T03:15:38Z) - Knowledge-aware contrastive heterogeneous molecular graph learning [77.94721384862699]
分子グラフを不均一な分子グラフ学習(KCHML)に符号化するパラダイムシフトを提案する。
KCHMLは、不均一な分子グラフと二重メッセージパッシング機構によって強化された3つの異なるグラフビュー-分子、元素、薬理学-を通して分子を概念化する。
この設計は、プロパティ予測やドラッグ・ドラッグ・インタラクション(DDI)予測などの下流タスクに対する包括的な表現を提供する。
論文 参考訳(メタデータ) (2025-02-17T11:53:58Z) - Automatic Annotation Augmentation Boosts Translation between Molecules and Natural Language [7.458295743918249]
本稿では,Language-based Automatic AugmentationフレームワークであるLA$3$を紹介した。
LA$3$の有効性を示すために、LaChEBI-20という拡張データセットを作成し、確立したデータセットから分子のアノテーションを書き換える。
ベンチマークアーキテクチャに基づいてLaMolT5をトレーニングし、分子表現と拡張アノテーションのマッピングを学習する。
論文 参考訳(メタデータ) (2025-02-10T16:29:21Z) - Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフパターンから直接学習するためのフレームワークであるNeural Graph Pattern Machine (GPM)を提案する。
GPMは、下流タスクにおいて最も関連性の高いものを特定しながら、下位構造を効率的に抽出し、エンコードする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - Query-Aware Learnable Graph Pooling Tokens as Prompt for Large Language Models [3.9489815622117566]
Learnable Graph Pooling Token (LGPT)は、フレキシブルで効率的なグラフ表現を可能にする。
提案手法は,大規模言語モデルを訓練することなく,GraphQAベンチマークで4.13%の性能向上を実現している。
論文 参考訳(メタデータ) (2025-01-29T10:35:41Z) - A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Graph Linearization Methods for Reasoning on Graphs with Large Language Models [25.3545522174459]
グラフは、ローカル依存やグローバルアライメントなど、自然言語テキストの特定の特性を反映するように線形化されるべきである。
本稿では,グラフの中央性,縮退性,ノードの可逆性に基づくグラフ線形化手法を提案する。
本研究は,LLMに適した新しいグラフ表現を導入し,マルチモーダル処理のトレンドとグラフ機械学習の潜在的な統合に寄与する。
論文 参考訳(メタデータ) (2024-10-25T11:51:37Z) - What Do LLMs Need to Understand Graphs: A Survey of Parametric Representation of Graphs [69.48708136448694]
大規模言語モデル(LLM)は、期待される推論能力と推論能力のために、AIコミュニティで再編成されている。
我々は、グラフのこのようなパラメトリック表現、グラフ法則は、LLMがグラフデータを入力として理解させるソリューションであると信じている。
論文 参考訳(メタデータ) (2024-10-16T00:01:31Z) - Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - FARM: Functional Group-Aware Representations for Small Molecules [55.281754551202326]
小型分子のための機能的グループ認識表現(FARM)について紹介する。
FARMはSMILES、自然言語、分子グラフのギャップを埋めるために設計された新しいモデルである。
我々は、13のタスクのうち11のタスクで最先端のパフォーマンスを達成するMoleculeNetデータセット上で、FARMを評価した。
論文 参考訳(メタデータ) (2024-10-02T23:04:58Z) - Data-Efficient Molecular Generation with Hierarchical Textual Inversion [48.816943690420224]
分子生成のための階層型テキスト変換法 (HI-Mol) を提案する。
HI-Molは分子分布を理解する上での階層的情報、例えば粗い特徴ときめ細かい特徴の重要性にインスパイアされている。
単一レベルトークン埋め込みを用いた画像領域の従来のテキストインバージョン法と比較して, マルチレベルトークン埋め込みにより, 基礎となる低ショット分子分布を効果的に学習することができる。
論文 参考訳(メタデータ) (2024-05-05T08:35:23Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - MolGrapher: Graph-based Visual Recognition of Chemical Structures [50.13749978547401]
化学構造を視覚的に認識するためにMolGrapherを導入する。
すべての候補原子と結合をノードとして扱い、それらをグラフ化する。
グラフニューラルネットワークを用いてグラフ内の原子と結合ノードを分類する。
論文 参考訳(メタデータ) (2023-08-23T16:16:11Z) - Structure-free Graph Condensation: From Large-scale Graphs to Condensed
Graph-free Data [91.27527985415007]
既存のグラフ凝縮法は、凝縮グラフ内のノードと構造の合同最適化に依存している。
我々は、大規模グラフを小さなグラフノード集合に蒸留する、SFGCと呼ばれる新しい構造自由グラフ凝縮パラダイムを提唱する。
論文 参考訳(メタデータ) (2023-06-05T07:53:52Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Molecular Contrastive Learning with Chemical Element Knowledge Graph [16.136921143416927]
分子表現学習は、分子特性予測や薬物設計など、下流の複数のタスクに寄与する。
我々は,元素間の微視的関連を要約するケミカル要素知識グラフ(KG)を構築した。
最初のモジュールである知識誘導グラフ拡張は、ケミカル要素KGに基づいて元の分子グラフを増強する。
第2のモジュールである知識対応グラフ表現は、元の分子グラフの共通グラフエンコーダと知識対応メッセージパッシングニューラルネットワーク(KMPNN)を用いて分子表現を抽出し、拡張された分子グラフの複雑な情報をエンコードする。
論文 参考訳(メタデータ) (2021-12-01T15:04:39Z) - Multi-Level Graph Contrastive Learning [38.022118893733804]
本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。
元のグラフは1次近似構造であり、不確実性や誤りを含むが、符号化機能によって生成された$k$NNグラフは高次近接性を保持する。
MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-06T14:24:43Z) - MolCLR: Molecular Contrastive Learning of Representations via Graph
Neural Networks [11.994553575596228]
MolCLRは、大規模なラベルなしの分子データセットのための自己監視学習フレームワークです。
原子マスキング、結合除去、サブグラフ除去の3つの新しい分子グラフ増強法を提案する。
提案手法は,多くの挑戦的データセットに対して最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-02-19T17:35:18Z) - Reinforced Molecular Optimization with Neighborhood-Controlled Grammars [63.84003497770347]
分子最適化のためのグラフ畳み込みポリシネットワークであるMNCE-RLを提案する。
我々は、元の近傍制御された埋め込み文法を拡張して、分子グラフ生成に適用する。
提案手法は, 分子最適化タスクの多種多様さにおいて, 最先端性能を実現する。
論文 参考訳(メタデータ) (2020-11-14T05:42:15Z) - Hierarchical Inter-Message Passing for Learning on Molecular Graphs [9.478108870211365]
分子グラフを学習するための階層型ニューラルメッセージパッシングアーキテクチャを提案する。
我々の手法は、サイクルの検出など、古典的なGNNで知られているいくつかの制限を克服することができるが、それでも訓練は非常に効率的である。
論文 参考訳(メタデータ) (2020-06-22T12:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。