論文の概要: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment
- arxiv url: http://arxiv.org/abs/2406.14021v1
- Date: Thu, 20 Jun 2024 06:37:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-21 15:10:05.756383
- Title: HIGHT: Hierarchical Graph Tokenization for Graph-Language Alignment
- Title(参考訳): HighT: グラフ言語アライメントのための階層的なグラフトークン化
- Authors: Yongqiang Chen, Quanming Yao, Juzheng Zhang, James Cheng, Yatao Bian,
- Abstract要約: 我々は,大規模言語モデル(LLM)のグラフ認識を改善するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
7つの分子中心のベンチマークによる実験では、幻覚を40%減らすためのHighTの有効性が確認され、また、様々な分子言語による下流タスクの大幅な改善も確認された。
- 参考スコア(独自算出の注目度): 41.75926736949724
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently there has been a surge of interest in extending the success of large language models (LLMs) to graph modality, such as social networks and molecules. As LLMs are predominantly trained with 1D text data, most existing approaches adopt a graph neural network to represent a graph as a series of node tokens and feed these tokens to LLMs for graph-language alignment. Despite achieving some successes, existing approaches have overlooked the hierarchical structures that are inherent in graph data. Especially, in molecular graphs, the high-order structural information contains rich semantics of molecular functional groups, which encode crucial biochemical functionalities of the molecules. We establish a simple benchmark showing that neglecting the hierarchical information in graph tokenization will lead to subpar graph-language alignment and severe hallucination in generated outputs. To address this problem, we propose a novel strategy called HIerarchical GrapH Tokenization (HIGHT). HIGHT employs a hierarchical graph tokenizer that extracts and encodes the hierarchy of node, motif, and graph levels of informative tokens to improve the graph perception of LLMs. HIGHT also adopts an augmented graph-language supervised fine-tuning dataset, enriched with the hierarchical graph information, to further enhance the graph-language alignment. Extensive experiments on 7 molecule-centric benchmarks confirm the effectiveness of HIGHT in reducing hallucination by 40%, as well as significant improvements in various molecule-language downstream tasks.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の成功を,ソーシャルネットワークや分子などのグラフモダリティに拡張することへの関心が高まっている。
LLMは1Dテキストデータで主に訓練されているため、既存のほとんどのアプローチでは、グラフを一連のノードトークンとして表現し、これらのトークンをLLMに供給してグラフ言語アライメントするグラフニューラルネットワークを採用している。
いくつかの成功にもかかわらず、既存のアプローチはグラフデータに固有の階層構造を見落としている。
特に、分子グラフでは、高次構造情報は分子の機能群の豊富な意味を含み、分子の重要な生化学的機能をコードしている。
グラフトークン化における階層的情報の無視は、グラフ言語アライメントと、生成した出力における深刻な幻覚に繋がることを示す単純なベンチマークを確立する。
この問題に対処するために,階層型GrapHトークン化(HIGHT)と呼ばれる新しい戦略を提案する。
HighTは階層的なグラフトークン化器を用いて、LLMのグラフ認識を改善するために、ノード、モチーフ、およびグラフレベルの情報トークンを抽出し、エンコードする。
HighTはまた、階層的なグラフ情報に富んだグラフ言語教師付き微調整データセットを導入し、グラフ言語アライメントをさらに強化する。
7つの分子中心のベンチマークによる広範囲な実験により、幻覚の40%削減におけるHighTの有効性が確認され、また、様々な分子言語下流タスクにおいて顕著な改善がなされた。
関連論文リスト
- A Hierarchical Language Model For Interpretable Graph Reasoning [47.460255447561906]
ノード中心の局所情報と相互作用中心のグローバル構造を捉えるために2ブロックアーキテクチャを用いる階層型グラフ言語モデル(HLM-G)を導入する。
提案手法は,大規模グラフ処理における計算コストを削減しつつ,高い効率性,効率性,ロバスト性で様々なグラフクエリに対処することを可能にする。
多様なグラフ推論およびノード,リンク,グラフレベルの実世界のタスクに対する総合的な評価は,本手法の優位性を強調している。
論文 参考訳(メタデータ) (2024-10-29T00:28:02Z) - Graph Linearization Methods for Reasoning on Graphs with Large Language Models [25.3545522174459]
グラフは、ローカル依存やグローバルアライメントなど、自然言語テキストの特定の特性を反映するように線形化されるべきである。
本稿では,グラフの中央性,縮退性,ノードの可逆性に基づくグラフ線形化手法を提案する。
本研究は,LLMに適した新しいグラフ表現を導入し,マルチモーダル処理のトレンドとグラフ機械学習の潜在的な統合に寄与する。
論文 参考訳(メタデータ) (2024-10-25T11:51:37Z) - Dynamic and Textual Graph Generation Via Large-Scale LLM-based Agent Simulation [70.60461609393779]
GraphAgent-Generator (GAG) は動的グラフ生成のための新しいシミュレーションベースのフレームワークである。
本フレームワークは,確立されたネットワーク科学理論において,7つのマクロレベルの構造特性を効果的に再現する。
最大10万近いノードと1000万のエッジを持つグラフの生成をサポートし、最低速度は90.4%である。
論文 参考訳(メタデータ) (2024-10-13T12:57:08Z) - GraphEdit: Large Language Models for Graph Structure Learning [62.618818029177355]
グラフ構造学習(GSL)は、グラフ構造データ中のノード間の固有の依存関係と相互作用をキャプチャすることに焦点を当てている。
既存のGSL法は、監督信号として明示的なグラフ構造情報に大きく依存している。
グラフ構造化データの複雑なノード関係を学習するために,大規模言語モデル(LLM)を利用したグラフ編集を提案する。
論文 参考訳(メタデータ) (2024-02-23T08:29:42Z) - G-Retriever: Retrieval-Augmented Generation for Textual Graph Understanding and Question Answering [61.93058781222079]
現実のテキストグラフを対象とするフレキシブルな問合せフレームワークを開発した。
一般のテキストグラフに対する最初の検索拡張生成(RAG)手法を提案する。
G-Retrieverは、このタスクをSteiner Tree最適化問題として定式化し、グラフ上でRAGを実行する。
論文 参考訳(メタデータ) (2024-02-12T13:13:04Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z) - Structure-free Graph Condensation: From Large-scale Graphs to Condensed
Graph-free Data [91.27527985415007]
既存のグラフ凝縮法は、凝縮グラフ内のノードと構造の合同最適化に依存している。
我々は、大規模グラフを小さなグラフノード集合に蒸留する、SFGCと呼ばれる新しい構造自由グラフ凝縮パラダイムを提唱する。
論文 参考訳(メタデータ) (2023-06-05T07:53:52Z) - GraphMAE: Self-Supervised Masked Graph Autoencoders [52.06140191214428]
本稿では,自己教師付きグラフ学習における課題を軽減するマスク付きグラフオートエンコーダGraphMAEを提案する。
我々は3つの異なるグラフ学習タスクに対して、21の公開データセットに関する広範な実験を行った。
その結果,GraphMAEはグラフオートエンコーダであり,設計に注意を払っている。
論文 参考訳(メタデータ) (2022-05-22T11:57:08Z) - Multi-Level Graph Contrastive Learning [38.022118893733804]
本稿では,グラフの空間ビューを対比することで,グラフデータの堅牢な表現を学習するためのマルチレベルグラフコントラスト学習(MLGCL)フレームワークを提案する。
元のグラフは1次近似構造であり、不確実性や誤りを含むが、符号化機能によって生成された$k$NNグラフは高次近接性を保持する。
MLGCLは、7つのデータセット上の既存の最先端グラフ表現学習法と比較して有望な結果が得られることを示す。
論文 参考訳(メタデータ) (2021-07-06T14:24:43Z) - Hierarchical Inter-Message Passing for Learning on Molecular Graphs [9.478108870211365]
分子グラフを学習するための階層型ニューラルメッセージパッシングアーキテクチャを提案する。
我々の手法は、サイクルの検出など、古典的なGNNで知られているいくつかの制限を克服することができるが、それでも訓練は非常に効率的である。
論文 参考訳(メタデータ) (2020-06-22T12:25:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。