論文の概要: GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data
- arxiv url: http://arxiv.org/abs/2510.09580v1
- Date: Fri, 10 Oct 2025 17:36:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:49.501918
- Title: GraphMERT: Efficient and Scalable Distillation of Reliable Knowledge Graphs from Unstructured Data
- Title(参考訳): GraphMERT: 構造化されていないデータからの信頼性の高い知識グラフの効率的かつスケーラブルな蒸留
- Authors: Margarita Belova, Jiaxin Xiao, Shikhar Tuli, Niraj K. Jha,
- Abstract要約: 構造化されていないテキストコーパスから高品質な知識グラフを抽出する,グラフィカルエンコーダのみの小型モデルであるGraphMERTを紹介する。
GraphMERTと同等のKGはモジュラー・ニューロシンボリックスタックを形成し、抽象のニューラルラーニング、検証可能な推論のためのシンボリックKGである。
- 参考スコア(独自算出の注目度): 5.435140607214518
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Researchers have pursued neurosymbolic artificial intelligence (AI) applications for nearly three decades because symbolic components provide abstraction while neural components provide generalization. Thus, a marriage of the two components can lead to rapid advancements in AI. Yet, the field has not realized this promise since most neurosymbolic AI frameworks fail to scale. In addition, the implicit representations and approximate reasoning of neural approaches limit interpretability and trust. Knowledge graphs (KGs), a gold-standard representation of explicit semantic knowledge, can address the symbolic side. However, automatically deriving reliable KGs from text corpora has remained an open problem. We address these challenges by introducing GraphMERT, a tiny graphical encoder-only model that distills high-quality KGs from unstructured text corpora and its own internal representations. GraphMERT and its equivalent KG form a modular neurosymbolic stack: neural learning of abstractions; symbolic KGs for verifiable reasoning. GraphMERT + KG is the first efficient and scalable neurosymbolic model to achieve state-of-the-art benchmark accuracy along with superior symbolic representations relative to baselines. Concretely, we target reliable domain-specific KGs that are both (1) factual (with provenance) and (2) valid (ontology-consistent relations with domain-appropriate semantics). When a large language model (LLM), e.g., Qwen3-32B, generates domain-specific KGs, it falls short on reliability due to prompt sensitivity, shallow domain expertise, and hallucinated relations. On text obtained from PubMed papers on diabetes, our 80M-parameter GraphMERT yields a KG with a 69.8% FActScore; a 32B-parameter baseline LLM yields a KG that achieves only 40.2% FActScore. The GraphMERT KG also attains a higher ValidityScore of 68.8%, versus 43.0% for the LLM baseline.
- Abstract(参考訳): シンボリックコンポーネントは抽象化を提供し、ニューラルコンポーネントは一般化を提供するため、研究者は30年近く、ニューロシンボリック人工知能(AI)の応用を追求してきた。
したがって、2つのコンポーネントの結婚は、AIの急速な進歩につながる可能性がある。
しかし、ほとんどのニューロシンボリックAIフレームワークはスケールできないため、この分野はこの約束に気づいていない。
さらに、ニューラルネットワークの暗黙の表現と近似的推論は、解釈可能性と信頼を制限する。
明示的な意味知識のゴールド標準表現である知識グラフ(KGs)は、象徴的な側面に対処することができる。
しかし、テキストコーパスから信頼性の高いKGを自動的に抽出することは、未解決の問題のままである。
構造化されていないテキストコーパスとその内部表現から高品質なKGを蒸留する,グラフィカルエンコーダのみの小さなモデルであるGraphMERTを導入することで,これらの課題に対処する。
GraphMERTと同等のKGはモジュラー・ニューロシンボリックスタックを形成し、抽象のニューラルラーニング、検証可能な推論のためのシンボリックKGである。
GraphMERT + KGは、ベースラインに対する優れたシンボル表現とともに最先端のベンチマーク精度を達成するための、最初の効率的でスケーラブルなニューロシンボリックモデルである。
具体的には,(1)実効性(証明付き)と(2)有効性(ドメイン固有意味論とのオントロジー整合性)の両方を有する信頼性ドメイン固有KGを対象とする。
大規模言語モデル(LLM)、例えばQwen3-32Bはドメイン固有のKGを生成するとき、迅速な感度、浅いドメインの専門知識、および幻覚関係のために信頼性に欠ける。
PubMedの糖尿病に関する論文から得られたテキストでは、80MパラメーターのGraphMERTは69.8%のFActScoreのKGを、32BパラメーターのLLMは40.2%のFActScoreのKGを得る。
GraphMERT KG は LLM ベースラインの 43.0% に対して 68.8% の ValidityScore も高い。
関連論文リスト
- Enrich-on-Graph: Query-Graph Alignment for Complex Reasoning with LLM Enriching [61.824094419641575]
大言語モデル(LLM)は知識グラフ質問応答(KGQA)のような知識集約的なシナリオにおける幻覚と事実的誤りに苦しむ
これは、構造化知識グラフ(KG)と非構造化クエリのセマンティックギャップによるもので、その焦点や構造に固有の違いが原因である。
既存の手法は通常、バニラKGの資源集約的で非スケーリング可能な推論を用いるが、このギャップを見落としている。
我々は、LLMの事前知識を活用してKGを充実させる柔軟なフレームワークEnrich-on-Graph(EoG)を提案し、グラフとクエリ間のセマンティックギャップを埋める。
論文 参考訳(メタデータ) (2025-09-25T06:48:52Z) - Self-supervised Quantized Representation for Seamlessly Integrating Knowledge Graphs with Large Language Models [17.88134311726175]
本稿では,知識グラフと大規模言語モデルとのシームレスな統合を目指して,各エンティティの量子化符号を学習し,適用するためのフレームワークを提案する。
実験の結果、SSQRは既存の教師なしの量子化手法よりも優れており、より区別可能なコードを生成することがわかった。
微調整されたLLaMA2とLLaMA3.1は、KGリンク予測と三重分類タスクよりも優れた性能を持つ。
論文 参考訳(メタデータ) (2025-01-30T03:40:20Z) - Graphusion: A RAG Framework for Knowledge Graph Construction with a Global Perspective [13.905336639352404]
この研究は、無料テキストからゼロショットの知識グラフフレームワークであるGraphusionを導入している。
ステップ1では、トピックモデリングを用いてシードエンティティのリストを抽出し、最終KGに最も関連性の高いエンティティを導く。
ステップ2ではLSMを用いて候補三重項抽出を行い、ステップ3では抽出した知識のグローバルなビューを提供する新しい融合モジュールを設計する。
論文 参考訳(メタデータ) (2024-10-23T06:54:03Z) - Graph-constrained Reasoning: Faithful Reasoning on Knowledge Graphs with Large Language Models [92.71304585906624]
大規模言語モデル(LLM)は知識ギャップと幻覚のために忠実な推論に苦しむ。
グラフ制約推論(GCR)は、KGにおける構造的知識とLLMにおける非構造的推論を橋渡しする新しいフレームワークである。
GCRは最先端のパフォーマンスを達成し、追加のトレーニングをすることなく、見えないKGに対して強力なゼロショット一般化性を示す。
論文 参考訳(メタデータ) (2024-10-16T22:55:17Z) - What can knowledge graph alignment gain with Neuro-Symbolic learning
approaches? [1.8416014644193066]
知識グラフ(KG)は多くのデータ集約型アプリケーションのバックボーンである。
現在のアルゴリズムでは、論理的思考と推論を語彙的、構造的、意味的なデータ学習で表現することができない。
本稿では,KGAにおける最先端技術について検討し,ニューロシンボリック統合の可能性を探る。
論文 参考訳(メタデータ) (2023-10-11T12:03:19Z) - Normalizing Flow-based Neural Process for Few-Shot Knowledge Graph
Completion [69.55700751102376]
FKGC (Few-shot Knowledge Graph completion) は、失明した事実を、無意味な関連のある事実で予測することを目的としている。
既存のFKGC手法はメートル法学習やメタラーニングに基づいており、しばしば分布外や過度に適合する問題に悩まされる。
本稿では,数ショット知識グラフ補完(NP-FKGC)のためのフローベースニューラルプロセスの正規化を提案する。
論文 参考訳(メタデータ) (2023-04-17T11:42:28Z) - Explainable Sparse Knowledge Graph Completion via High-order Graph
Reasoning Network [111.67744771462873]
本稿では,スパース知識グラフ(KG)のための新しい説明可能なモデルを提案する。
高次推論をグラフ畳み込みネットワーク、すなわちHoGRNに結合する。
情報不足を緩和する一般化能力を向上させるだけでなく、解釈可能性も向上する。
論文 参考訳(メタデータ) (2022-07-14T10:16:56Z) - BertNet: Harvesting Knowledge Graphs with Arbitrary Relations from
Pretrained Language Models [65.51390418485207]
本稿では,事前学習したLMから任意の関係を持つ大規模KGを抽出する手法を提案する。
関係定義の最小限の入力により、アプローチは膨大な実体対空間を効率的に探索し、多様な正確な知識を抽出する。
我々は、異なるLMから400以上の新しい関係を持つKGを収穫するためのアプローチを展開している。
論文 参考訳(メタデータ) (2022-06-28T19:46:29Z) - Learning Intents behind Interactions with Knowledge Graph for
Recommendation [93.08709357435991]
知識グラフ(KG)は、推薦システムにおいてますます重要な役割を果たす。
既存のGNNベースのモデルは、きめ細かいインテントレベルでのユーザ項目関係の特定に失敗します。
本稿では,新しいモデルである知識グラフベースインテントネットワーク(kgin)を提案する。
論文 参考訳(メタデータ) (2021-02-14T03:21:36Z) - Relational Learning Analysis of Social Politics using Knowledge Graph
Embedding [11.978556412301975]
本稿では,新しい信頼性ドメインベースのKG埋め込みフレームワークを提案する。
ヘテロジニアスリソースから得られたデータの融合を、ドメインによって表現された正式なKG表現にキャプチャする。
このフレームワークは、データ品質と信頼性を保証するための信頼性モジュールも具体化している。
論文 参考訳(メタデータ) (2020-06-02T14:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。