論文の概要: Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs
- arxiv url: http://arxiv.org/abs/2602.22698v1
- Date: Thu, 26 Feb 2026 07:20:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.572894
- Title: Tokenization, Fusion and Decoupling: Bridging the Granularity Mismatch Between Large Language Models and Knowledge Graphs
- Title(参考訳): トークン化、融合、デカップリング:大規模言語モデルと知識グラフの粒度ミスマッチをブリッジする
- Authors: Siyue Su, Jian Yang, Bo Li, Guanglin Niu,
- Abstract要約: 我々は,効率的な全空間予測を実現するために専用エンティティトークンを使用する新しいフレームワークKGTを提案する。
まず、専用エンティティトークンのレベルで特徴表現を構築するために、特殊トークン化を導入します。
次に、事前学習された構造的特徴とテキスト的特徴を、関係誘導ゲーティング機構を介して統合された埋め込みに融合する。
- 参考スコア(独自算出の注目度): 20.946228883628013
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging Large Language Models (LLMs) for Knowledge Graph Completion (KGC) is promising but hindered by a fundamental granularity mismatch. LLMs operate on fragmented token sequences, whereas entities are the fundamental units in knowledge graphs (KGs) scenarios. Existing approaches typically constrain predictions to limited candidate sets or align entities with the LLM's vocabulary by pooling multiple tokens or decomposing entities into fixed-length token sequences, which fail to capture both the semantic meaning of the text and the structural integrity of the graph. To address this, we propose KGT, a novel framework that uses dedicated entity tokens to enable efficient, full-space prediction. Specifically, we first introduce specialized tokenization to construct feature representations at the level of dedicated entity tokens. We then fuse pre-trained structural and textual features into these unified embeddings via a relation-guided gating mechanism, avoiding training from scratch. Finally, we implement decoupled prediction by leveraging independent heads to separate and combine semantic and structural reasoning. Experimental results show that KGT consistently outperforms state-of-the-art methods across multiple benchmarks.
- Abstract(参考訳): 知識グラフ補完(KGC)のためのLLM(Large Language Models)を活用することは有望だが、根本的な粒度のミスマッチによって妨げられている。
LLMは断片化されたトークンシーケンスで動作し、エンティティは知識グラフ(KG)のシナリオの基本単位である。
既存のアプローチでは、複数のトークンをプールしたり、エンティティを固定長のトークンシーケンスに分解することで、制限された候補集合に予測を制約したり、エンティティをLLMの語彙と整合させたりすることが一般的であり、これはテキストの意味論的意味とグラフの構造的整合性の両方を捉えるのに失敗する。
そこで本稿では,KGTを提案する。KGTは,専用のエンティティトークンを用いて,効率的な全空間予測を実現するフレームワークである。
具体的には、まず、専用エンティティトークンのレベルで特徴表現を構築するために、特殊トークン化を導入します。
次に,事前学習した構造的特徴とテキスト的特徴を,関係誘導ゲーティング機構を通じて統合された埋め込みに融合し,スクラッチからのトレーニングを回避する。
最後に、独立ヘッドを利用してセマンティクスと構造的推論を分離、組み合わせることで、疎結合予測を実装した。
実験の結果、KGTは複数のベンチマークで常に最先端の手法よりも優れていた。
関連論文リスト
- <SOG_k>: One LLM Token for Explicit Graph Structural Understanding [57.017902343605364]
我々は、グラフの構造を統一トークン空間内に完全に表現するために、1つの特別なトークン SOG_k> を組み込むことを提案する。
SOG_k>は、簡潔で正確な方法でLLMに理解、生成、理性を与える。
論文 参考訳(メタデータ) (2026-02-02T07:55:09Z) - Knowledge Graph Completion with Relation-Aware Anchor Enhancement [50.50944396454757]
関係認識型アンカー強化知識グラフ補完法(RAA-KGC)を提案する。
まず、ヘッダーのリレーショナル・アウェア・エリア内でアンカー・エンティティを生成します。
次に、アンカーの近傍に埋め込まれたクエリを引っ張ることで、ターゲットのエンティティマッチングに対してより差別的になるように調整する。
論文 参考訳(メタデータ) (2025-04-08T15:22:08Z) - Towards Auto-Regressive Next-Token Prediction: In-Context Learning Emerges from Generalization [26.9153121765435]
大規模言語モデル(LLM)は、文脈内学習能力を顕著に示している。
本稿では,ICLの出現と事前学習がICLに与える影響について検討する。
我々の理論は、数値線形力学系、合成GINC、実世界の言語データセットの実験によって支持されている。
論文 参考訳(メタデータ) (2025-02-24T10:26:29Z) - Unifying Structure and Language Semantic for Efficient Contrastive
Knowledge Graph Completion with Structured Entity Anchors [0.3913403111891026]
知識グラフ補完(KGC)の目標は、すでに知られている訓練された事実を用いて、KGの欠落したリンクを予測することである。
本稿では,帰納的推論の力を失うことなく,構造情報と言語意味を効果的に統一する手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T11:17:55Z) - Schema First! Learn Versatile Knowledge Graph Embeddings by Capturing
Semantics with MASCHInE [3.174882428337821]
近年,知識グラフ埋め込みモデル (KGEMs) が注目されている。
本研究では,RDF/S情報を活用するKGの小型改良版であるプロトグラフを設計する。
学習されたプロトグラフベースの埋め込みは、KGのセマンティクスをカプセル化することを目的としており、KGEの学習に利用することができる。
論文 参考訳(メタデータ) (2023-06-06T13:22:54Z) - Physics of Language Models: Part 1, Learning Hierarchical Language Structures [51.68385617116854]
トランスフォーマーベースの言語モデルは効率的だが複雑であり、内部の動作や推論メカニズムを理解することは大きな課題である。
本稿では,長文を生成可能な階層規則を生成する合成CFGのファミリーを紹介する。
我々は、GPTのような生成モデルがCFG定義階層を正確に学習し、推論し、それに基づいて文を生成することを実証する。
論文 参考訳(メタデータ) (2023-05-23T04:28:16Z) - Autoregressive Structured Prediction with Language Models [73.11519625765301]
本稿では, PLM を用いた自己回帰的手法を用いて, モデル構造を行動列として記述する。
我々のアプローチは、私たちが見てきた全ての構造化予測タスクにおいて、新しい最先端を実現する。
論文 参考訳(メタデータ) (2022-10-26T13:27:26Z) - Inductive Learning on Commonsense Knowledge Graph Completion [89.72388313527296]
コモンセンス知識グラフ(英: Commonsense Knowledge graph、CKG)は、知識グラフ(英: knowledge graph、CKG)の一種。
本稿では,未確認のエンティティがテスト時に現れるCKG完了のための帰納学習環境について検討する。
InductivEは、ATOMICとConceptNetベンチマークの標準設定とインダクティブ設定の両方において、最先端のベースラインを大幅に上回っている。
論文 参考訳(メタデータ) (2020-09-19T16:10:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。