論文の概要: Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models
- arxiv url: http://arxiv.org/abs/2506.07334v1
- Date: Mon, 09 Jun 2025 00:30:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.767663
- Title: Graph-KV: Breaking Sequence via Injecting Structural Biases into Large Language Models
- Title(参考訳): Graph-KV: 大規模言語モデルに構造バイアスを注入することでシーケンスを破る
- Authors: Haoyu Wang, Peihao Wang, Mufei Li, Shikun Liu, Siqi Miao, Zhangyang Wang, Pan Li,
- Abstract要約: 構造的帰納バイアスを通して相互作用を管理するグラフ-KVを導入する。
このフレームワークでは、「ターゲット」セグメントは指定された「ソース」セグメントのKV-cacheのみに選択的に参加する。
我々は,(1)直接推論,マルチホップ推論,長期文書理解にまたがる7つのRAGベンチマーク,(2)引用エゴグラフとして構造化された全文科学論文を用いた新しい学術論文QAタスクArxiv-QA,(3)引用ネットワーク内の論文トピック分類の3つのシナリオでグラフ-KVを評価する。
- 参考スコア(独自算出の注目度): 63.64507678113921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern large language models (LLMs) are inherently auto-regressive, requiring input to be serialized into flat sequences regardless of their structural dependencies. This serialization hinders the model's ability to leverage structural inductive biases, especially in tasks such as retrieval-augmented generation (RAG) and reasoning on data with native graph structures, where inter-segment dependencies are crucial. We introduce Graph-KV with the potential to overcome this limitation. Graph-KV leverages the KV-cache of text segments as condensed representations and governs their interaction through structural inductive biases. In this framework, 'target' segments selectively attend only to the KV-caches of their designated 'source' segments, rather than all preceding segments in a serialized sequence. This approach induces a graph-structured block mask, sparsifying attention and enabling a message-passing-like step within the LLM. Furthermore, strategically allocated positional encodings for source and target segments reduce positional bias and context window consumption. We evaluate Graph-KV across three scenarios: (1) seven RAG benchmarks spanning direct inference, multi-hop reasoning, and long-document understanding; (2) Arxiv-QA, a novel academic paper QA task with full-text scientific papers structured as citation ego-graphs; and (3) paper topic classification within a citation network. By effectively reducing positional bias and harnessing structural inductive biases, Graph-KV substantially outperforms baselines, including standard costly sequential encoding, across various settings. Code and the Graph-KV data are publicly available.
- Abstract(参考訳): 現代の大規模言語モデル(LLM)は本質的に自己回帰的であり、構造的依存関係に関わらず、入力をフラットシーケンスにシリアライズする必要がある。
このシリアライゼーションは、特に検索強化生成(RAG)や、セグメント間の依存関係が不可欠であるネイティブグラフ構造によるデータの推論といったタスクにおいて、構造的帰納バイアスを活用するモデルの能力を妨げます。
この制限を克服する可能性を秘めたGraph-KVを導入します。
Graph-KVは、テキストセグメントのKVキャッシュを凝縮表現として利用し、構造的帰納バイアスを通じてそれらの相互作用を管理する。
このフレームワークでは、「ターゲット」セグメントは、シリアライズされたシーケンスのすべての先行セグメントではなく、指定された「ソース」セグメントのKV-カッチのみに選択的に参加する。
このアプローチは、グラフ構造化されたブロックマスクを誘導し、注意を分散させ、LLM内のメッセージパッシングのようなステップを可能にする。
さらに、ソースセグメントとターゲットセグメントの戦略的に割り当てられた位置符号化により、位置バイアスとコンテキストウィンドウの消費が減少する。
我々は,(1)直接推論,マルチホップ推論,長期文書理解にまたがる7つのRAGベンチマーク,(2)引用エゴグラフとして構造化された全文科学論文を用いた新しい学術論文QAタスクArxiv-QA,(3)引用ネットワーク内の論文トピック分類の3つのシナリオでグラフ-KVを評価する。
位置バイアスを効果的に低減し、構造的帰納バイアスを活用することにより、Graph-KVは、さまざまな設定で標準コストシーケンシャルエンコーディングを含むベースラインを大幅に上回る。
コードとGraph-KVデータは公開されている。
関連論文リスト
- Integrating Structural and Semantic Signals in Text-Attributed Graphs with BiGTex [0.16385815610837165]
BiGTexは、スタック化されたGraph-Text Fusion Unitを通じてGNNとLLMを密に統合する新しいアーキテクチャである。
BiGTexはノード分類における最先端性能を実現し、リンク予測に効果的に一般化する。
論文 参考訳(メタデータ) (2025-04-16T20:25:11Z) - Scale-Free Graph-Language Models [44.283149785253286]
グラフ言語モデル(GLM)は、グラフに基づく半教師付き学習において大きな可能性を示している。
本稿では,グラフ生成とテキスト埋め込みを統一フレームワークに統合した新しいGLMを提案する。
論文 参考訳(メタデータ) (2025-02-21T03:41:43Z) - Beyond Message Passing: Neural Graph Pattern Machine [50.78679002846741]
本稿では,グラフサブストラクチャから直接学習することで,メッセージパッシングをバイパスする新しいフレームワークであるNeural Graph Pattern Machine(GPM)を紹介する。
GPMはタスク関連グラフパターンを効率的に抽出し、エンコードし、優先順位付けする。
論文 参考訳(メタデータ) (2025-01-30T20:37:47Z) - GraphCroc: Cross-Correlation Autoencoder for Graph Structural Reconstruction [6.817416560637197]
グラフオートエンコーダ(GAE)はノード埋め込みからグラフ構造を再構築する。
我々はGAE表現能力を著しく向上する相互相関機構を導入する。
また、さまざまな下流タスクに適したフレキシブルエンコーダアーキテクチャをサポートする新しいGAEであるGraphCrocを提案する。
論文 参考訳(メタデータ) (2024-10-04T12:59:45Z) - Learning to Model Graph Structural Information on MLPs via Graph Structure Self-Contrasting [50.181824673039436]
本稿では,グラフ構造情報をメッセージパッシングなしで学習するグラフ構造自己コントラスト(GSSC)フレームワークを提案する。
提案するフレームワークは,構造情報を事前知識として暗黙的にのみ組み込む,MLP(Multi-Layer Perceptrons)に基づいている。
これはまず、近傍の潜在的非形式的あるいはノイズの多いエッジを取り除くために構造的スペーシングを適用し、その後、スペーシングされた近傍で構造的自己コントラストを行い、ロバストなノード表現を学ぶ。
論文 参考訳(メタデータ) (2024-09-09T12:56:02Z) - A Pure Transformer Pretraining Framework on Text-attributed Graphs [50.833130854272774]
グラフ構造を先行として扱うことで,特徴中心の事前学習の視点を導入する。
我々のフレームワークであるGraph Sequence Pretraining with Transformer (GSPT)はランダムウォークを通してノードコンテキストをサンプリングする。
GSPTはノード分類とリンク予測の両方に容易に適応でき、様々なデータセットで有望な経験的成功を示す。
論文 参考訳(メタデータ) (2024-06-19T22:30:08Z) - Deep Contrastive Graph Learning with Clustering-Oriented Guidance [61.103996105756394]
グラフ畳み込みネットワーク(GCN)は、グラフベースのクラスタリングを改善する上で大きな可能性を秘めている。
モデルはGCNを適用するために初期グラフを事前に推定する。
一般的なデータクラスタリングには,Deep Contrastive Graph Learning (DCGL)モデルが提案されている。
論文 参考訳(メタデータ) (2024-02-25T07:03:37Z) - Graph Language Models [18.75364157933661]
両アプローチの長所を統合し,その短所を緩和する新しいLM型であるグラフ言語モデル(GLM)を導入する。
我々はGLMのアーキテクチャを設計し、グラフバイアスを取り入れ、グラフ内の効果的な知識分布を促進する。
関係分類タスクに関する実証的な評価は、GLM埋め込みが、教師付きおよびゼロショット設定におけるLMベースラインとGNNベースベースラインの両方を上回っていることを示している。
論文 参考訳(メタデータ) (2024-01-13T16:09:49Z) - GraphiT: Encoding Graph Structure in Transformers [37.33808493548781]
古典的グラフニューラルネットワーク(GNN)を用いて学習した表現を,ノードの特徴と構造的および位置的情報の集合として見ることにより,より優れた表現を実現できることを示す。
我々のモデルであるGraphiTは,グラフ上の正定値カーネルに基づく自己注意スコアにおける相対的な位置符号化戦略と,短距離パスなどの局所的なサブ構造を列挙して符号化することで,そのような情報を符号化する。
論文 参考訳(メタデータ) (2021-06-10T11:36:22Z) - Structure-Augmented Text Representation Learning for Efficient Knowledge
Graph Completion [53.31911669146451]
人為的な知識グラフは、様々な自然言語処理タスクに重要な支援情報を提供する。
これらのグラフは通常不完全であり、自動補完を促す。
グラフ埋め込みアプローチ(例えばTransE)は、グラフ要素を密度の高い埋め込みに表現することで構造化された知識を学ぶ。
テキストエンコーディングアプローチ(KG-BERTなど)は、グラフトリプルのテキストとトリプルレベルの文脈化表現を利用する。
論文 参考訳(メタデータ) (2020-04-30T13:50:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。