論文の概要: Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning
- arxiv url: http://arxiv.org/abs/2603.01385v1
- Date: Mon, 02 Mar 2026 02:26:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.655282
- Title: Toward Graph-Tokenizing Large Language Models with Reconstructive Graph Instruction Tuning
- Title(参考訳): グラフインストラクションチューニングによる大規模言語モデルの構築に向けて
- Authors: Zhongjian Zhang, Xiao Wang, Mengmei Zhang, Jiarui Tan, Chuan Shi,
- Abstract要約: 大きな言語モデル(LLM)がグラフをよりよく理解できるように、グラフデータを言語空間と整合させることが課題である。
GTokenLLMは複雑な構造と長いテキストをグラフトークンシーケンスにエンコードし、言語命令のチューニングを通じてテキストトークンと整列する。
最初の成功にもかかわらず、我々の情報理論分析により、既存のGTokenLLMは言語命令からのテキスト管理のみに依存していることが明らかとなった。
- 参考スコア(独自算出の注目度): 17.712367049197212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The remarkable success of large language models (LLMs) has motivated researchers to adapt them as universal predictors for various graph-related tasks, with the ultimate goal of developing a graph foundation model that generalizes diverse scenarios. The key challenge is to align graph data with language spaces so that LLMs can better comprehend graphs. As a popular paradigm, Graph-Tokenizing LLMs (GTokenLLMs) encode complex structures and lengthy texts into a graph token sequence, and then align them with text tokens via language instructions tuning. Despite their initial success, our information-theoretic analysis reveals that existing GTokenLLMs rely solely on text supervision from language instructions, which achieve only implicit graph-text alignment, resulting in a text-dominant bias that underutilizes graph context. To overcome this limitation, we first prove that the alignment objective is upper-bounded by the mutual information between the input graphs and their hidden representations in the LLM, which motivates us to improve this upper bound to achieve better alignment. To this end, we further propose a reconstructive graph instruction tuning pipeline, RGLM. Our key idea is to reconstruct the graph information from the LLM's graph token outputs, explicitly incorporating graph supervision to constrain the alignment process. Technically, we embody RGLM by exploring three distinct variants from two complementary perspectives: RGLM-Decoder from the input space; RGLM-Similarizer and RGLM-Denoiser from the latent space. Additionally, we theoretically analyze the alignment effectiveness of each variant. Extensive experiments on various benchmarks and task scenarios validate the effectiveness of the proposed RGLM, paving the way for new directions in GTokenLLMs' alignment research.
- Abstract(参考訳): 大規模言語モデル(LLM)の顕著な成功は、様々なグラフ関連タスクの普遍的な予測子として、様々なシナリオを一般化するグラフ基盤モデルを開発するという究極の目標を掲げて、研究者を動機付けてきた。
重要な課題は、LLMがグラフをよりよく理解できるように、グラフデータを言語空間と整合させることである。
一般的なパラダイムとして、GTokenLLM (Graph-Tokenizing LLM) は複雑な構造や長いテキストをグラフトークンシーケンスにエンコードし、言語命令のチューニングを通じてテキストトークンと整列させる。
最初の成功にもかかわらず、我々の情報理論分析により、既存のGTokenLLMは、暗黙的なグラフテキストアライメントのみを達成する言語命令からのテキスト管理のみに依存しており、結果としてグラフコンテキストを弱くするテキスト優位バイアスが生じることが明らかになった。
この制限を克服するために、まず、アライメント目的が LLM における入力グラフとその隠れ表現の相互情報によって上界であることが証明され、この上界を改善してアライメントを向上する動機となる。
そこで本研究では,再構成グラフ命令チューニングパイプライン RGLM を提案する。
我々のキーとなる考え方は、LLMのグラフトークン出力からグラフ情報を再構築し、アライメントプロセスを制約するためにグラフの監督を明示的に取り入れることである。
技術的には、入力空間から RGLM-Decoder、潜伏空間から RGLM-Similarizer と RGLM-Denoiser という2つの相補的な観点から RGLM-Decoder を探索することによって、RGLM を具現化する。
さらに,各変種におけるアライメントの有効性を理論的に解析する。
GTokenLLMsのアライメント研究において、様々なベンチマークとタスクシナリオに関する大規模な実験により、提案したRGLMの有効性が検証された。
関連論文リスト
- Semi-supervised Instruction Tuning for Large Language Models on Text-Attributed Graphs [62.544129365882014]
本稿では,SIT-Graph というグラフ学習用セミ教師付きインストラクションチューニングパイプラインを提案する。
SIT-Graphはモデルに依存しず、LSMを予測子として利用するグラフ命令チューニングメソッドにシームレスに統合することができる。
SIT-Graphは、最先端グラフチューニング手法に組み込むと、テキスト分散グラフベンチマークの性能を大幅に向上することを示した。
論文 参考訳(メタデータ) (2026-01-19T08:10:53Z) - Graph-O1 : Monte Carlo Tree Search with Reinforcement Learning for Text-Attributed Graph Reasoning [7.792321858331646]
Graph-O1はエージェント的なGraphRAGフレームワークで、LCMがグラフ上で段階的にインタラクティブな推論を実行できる。
提案手法はモンテカルロ木探索(MCTS)とエンドツーエンドの強化学習を統合し,最も情報に富む部分グラフの探索と検索を可能にする。
論文 参考訳(メタデータ) (2025-11-26T21:32:04Z) - Align-GRAG: Reasoning-Guided Dual Alignment for Graph Retrieval-Augmented Generation [79.75818239774952]
大きな言語モデル(LLM)は目覚ましい能力を示しているが、幻覚や時代遅れの情報といった問題に苦戦している。
Retrieval-augmented Generation (RAG) は、情報検索システム(IR)を用いて、外部知識のLLM出力を基底にすることで、これらの問題に対処する。
本稿では、検索後句における新しい推論誘導二重アライメントフレームワークであるAlign-GRAGを提案する。
論文 参考訳(メタデータ) (2025-05-22T05:15:27Z) - Adaptive Tokenization: On the Hop-Overpriority Problem in Tokenized Graph Learning Models [59.98982735197465]
トークン学習モデル(TGLM)は、グラフをスケーラブルな処理のために順序付きトークンリストに変換する。
TGLMは手書きのトークンリストに依存しており、さまざまなグラフ学習シナリオへの適応性はまだ未検討である。
本稿では,手書きのトークンリストをTGLMで置き換えるプラグイン・アンド・プレイモジュールであるLearnable Graph Token List(LGTL)を提案する。
論文 参考訳(メタデータ) (2025-05-19T06:25:33Z) - LLM as GNN: Graph Vocabulary Learning for Text-Attributed Graph Foundation Models [87.68057302738457]
Text-Attributed Graphs (TAG) は、現実のシナリオにおいてユビキタスである。
大規模言語モデル(LLMs)とグラフニューラルネットワーク(GNNs)をTAGsに統合する努力にもかかわらず、既存のアプローチは分離されたアーキテクチャに悩まされている。
本稿では,グラフ語彙学習に基づくTAGのための汎用GFMであるPromptGFMを提案する。
論文 参考訳(メタデータ) (2025-03-05T09:45:22Z) - Enhance Graph Alignment for Large Language Models [33.96082485852042]
グラフへのアプローチは、大規模言語モデルがグラフ情報を処理できることで人気がある。
既存の手法は、自己監督タスクと下流タスクの間に不一致がある。
協調タスクテンプレートの恩恵を受けるために,グラフアライメント大言語モデル(GALLM)を提案する。
論文 参考訳(メタデータ) (2024-10-15T07:50:34Z) - Parameter-Efficient Tuning Large Language Models for Graph Representation Learning [62.26278815157628]
Graph-awareを導入します。
GPEFT - グラフ表現学習のための新しい手法。
グラフニューラルネットワーク(GNN)を用いて、隣接するノードからグラフプロンプトに構造情報をエンコードする。
我々は8つの異なるテキストリッチグラフで実施した総合的な実験を通じて,リンク予測評価において hit@1 と Mean Reciprocal Rank (MRR) の平均 2% の改善を観察し,本手法の有効性を検証した。
論文 参考訳(メタデータ) (2024-04-28T18:36:59Z) - Graph Chain-of-Thought: Augmenting Large Language Models by Reasoning on Graphs [60.71360240206726]
大規模言語モデル(LLM)は、特に知識集約的なタスクにおいて幻覚に悩まされる。
既存の研究は、外部知識コーパスから取得した個々のテキスト単位でLLMを拡張することを提案する。
本稿では,グラフを反復的に推論することで,LLMをグラフで拡張するためのGraph Chain-of-thinkt (Graph-CoT) というフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-10T15:41:53Z) - Which Modality should I use -- Text, Motif, or Image? : Understanding Graphs with Large Language Models [14.251972223585765]
本稿では,テキスト,画像,モチーフなどの多様性を持つグラフを符号化する新たな手法を提案する。
また、グラフ構造解析において、LLM(Large Language Models)を評価するための新しいベンチマークであるGraphTMIも提示されている。
論文 参考訳(メタデータ) (2023-11-16T12:45:41Z) - GraphGPT: Graph Instruction Tuning for Large Language Models [27.036935149004726]
グラフニューラルネットワーク(GNN)は、グラフ構造を理解するために進化してきた。
堅牢性を高めるために、自己教師付き学習(SSL)はデータ拡張の重要なツールとなっている。
本研究は,ゼロショット学習環境におけるグラフモデルの一般化を推し進めることによって,この問題に対処する。
論文 参考訳(メタデータ) (2023-10-19T06:17:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。