論文の概要: GPTKB: Comprehensively Materializing Factual LLM Knowledge
- arxiv url: http://arxiv.org/abs/2411.04920v3
- Date: Mon, 16 Dec 2024 14:05:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:15.459807
- Title: GPTKB: Comprehensively Materializing Factual LLM Knowledge
- Title(参考訳): GPTKB:Factual LLM知識の総合化
- Authors: Yujia Hu, Tuan-Phong Nguyen, Shrestha Ghosh, Simon Razniewski,
- Abstract要約: LLMの事実知識を包括的に具体化する新しい手法を提案する。
我々はGPT-4o-miniを用いて、290万以上のエンティティに対して105万トリプルからなる大規模知識ベース(KB)であるGPTKBを構築している。
この研究は2つの分野でマイルストーンを達成している: LLM の研究にとって、初めて LLM の知識の範囲と構造に関する建設的な洞察を提供する。
- 参考スコア(独自算出の注目度): 15.276041443299905
- License:
- Abstract: LLMs have majorly advanced NLP and AI, and next to their ability to perform a wide range of procedural tasks, a major success factor is their internalized factual knowledge. Since (Petroni et al., 2019), analyzing this knowledge has gained attention. However, most approaches investigate one question at a time via modest-sized pre-defined samples, introducing an availability bias (Tversky and Kahnemann, 1973) that prevents the discovery of knowledge (or beliefs) of LLMs beyond the experimenter's predisposition. To address this challenge, we propose a novel methodology to comprehensively materializing an LLM's factual knowledge through recursive querying and result consolidation. As a prototype, we employ GPT-4o-mini to construct GPTKB, a large-scale knowledge base (KB) comprising 105 million triples for over 2.9 million entities - achieved at 1% of the cost of previous KB projects. This work marks a milestone in two areas: For LLM research, for the first time, it provides constructive insights into the scope and structure of LLMs' knowledge (or beliefs). For KB construction, it pioneers new pathways for the long-standing challenge of general-domain KB construction. GPTKB is accessible at https://gptkb.org.
- Abstract(参考訳): LLMは、主にNLPとAIを進歩させており、広範囲の手続き的なタスクを実行する能力の隣で、大きな成功要因は、内部化された事実知識である。
以来(Petroni et al , 2019)、この知識の分析が注目されている。
しかしながら、ほとんどのアプローチは、モデストサイズの事前定義されたサンプルを通して一度に1つの質問を調査し、実験者の前置詞を超えたLSMの知識(または信念)の発見を防止する可用性バイアス(Tversky and Kahnemann, 1973)を導入している。
この課題に対処するために,再帰的なクエリと結果の集約によってLLMの事実知識を包括的に具現化する手法を提案する。
プロトタイプとして GPT-4o-mini を用いて,従来の KB プロジェクトの1% のコストで実現した大規模知識ベース (KB) である GPTKB を構築した。
この研究は2つの分野においてマイルストーンとなる。 LLM の研究にとって、初めて LLM の知識(または信念)のスコープと構造に関する建設的な洞察を提供する。
KB構築のために、汎用KB構築の長年にわたる挑戦のための新しい経路を開拓した。
GPTKBはhttps://gptkb.org.comで入手できる。
関連論文リスト
- A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering [17.281005999581865]
FreebaseやWikidataのような大規模知識ベース(KB)には、数百万の構造化知識がある。
Knowledge Base Question Answering (KBQA)は、自然言語の質問を通じて、これらの貴重なKBにアクセスするためのユーザフレンドリな方法を提供する。
本稿では,KBLLaMAを開発した。KBLLaMAは,新しいKB知識を言語モデルに注入し,フレキシブルなエンドツーエンドKBQAを実現するためのフレームワークである。
論文 参考訳(メタデータ) (2024-06-20T22:22:41Z) - Evaluating the Knowledge Base Completion Potential of GPT [29.75708908603862]
GPT-3では、Wikidataを2700万の事実を90%の精度で拡張することができる。
適切なしきい値設定により、GPT-3 は Wikidata を 90% の精度で 2700万 の事実で拡張できることを示す。
論文 参考訳(メタデータ) (2023-10-23T10:15:13Z) - LLM2KB: Constructing Knowledge Bases using instruction tuned context
aware Large Language Models [0.8702432681310401]
本稿では,大規模言語モデルを用いた知識ベース構築システム LLM2KB を提案する。
ISWC 2023で開かれたLM-KBCチャレンジでは,21関係の平均F1スコアが0.6185に達した。
論文 参考訳(メタデータ) (2023-08-25T07:04:16Z) - KnowledGPT: Enhancing Large Language Models with Retrieval and Storage
Access on Knowledge Bases [55.942342665806656]
KnowledGPTは、様々な知識ベースで大きな言語モデルをブリッジするための包括的なフレームワークである。
検索プロセスでは思考プロンプトプログラムを使用し,KBの検索言語をコード形式で生成する。
KnowledGPTは、個々のユーザ要求に合わせて、知識をパーソナライズされたKBに格納する機能を提供する。
論文 参考訳(メタデータ) (2023-08-17T13:07:00Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - SYGMA: System for Generalizable Modular Question Answering OverKnowledge
Bases [57.89642289610301]
SYGMAは、複数の知識ベースと複数のリアソニングタイプにまたがる汎用化を容易にするモジュラーアプローチである。
本システムの有効性を,DBpediaとWikidataの2つの異なる知識ベースに属するデータセットを用いて評価することで実証する。
論文 参考訳(メタデータ) (2021-09-28T01:57:56Z) - CogNet: Bridging Linguistic Knowledge, World Knowledge and Commonsense
Knowledge [22.01447874535337]
CogNetは3種類の知識を統合するための知識ベース(KB)である。
FrameNetからの言語知識。状況、オブジェクト、イベントをスキーマ的に記述する。
特定のインスタンスに関する明確な知識を提供するYAGO、Freebase、DBpedia、Wikidataの世界の知識。
暗黙の一般的な事実を記述するConceptNetの常識知識。
論文 参考訳(メタデータ) (2021-03-03T02:47:18Z) - Reasoning Over Virtual Knowledge Bases With Open Predicate Relations [85.19305347984515]
Open Predicate Query Language (OPQL) を紹介します。
OPQLは、テキストから完全にトレーニングされた仮想知識ベース(VKB)を構築する方法である。
OPQLは2つの異なるKB推論タスクにおいて、以前のVKBメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-14T01:29:54Z) - Beyond I.I.D.: Three Levels of Generalization for Question Answering on
Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。
BERTベースのKBQAモデルを提案する。
データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文 参考訳(メタデータ) (2020-11-16T06:36:26Z) - Language Models as Knowledge Bases: On Entity Representations, Storage
Capacity, and Paraphrased Queries [35.57443199012129]
事前訓練された言語モデルは、構造化された知識ベースに対する代替または補完として提案されている。
ここでは、LMをKBとして扱うための2つの基本的な要件を定式化する。
我々は、LMが数百万のエンティティを表現できる3つのエンティティ表現を探索し、LMにおける世界知識のパラフレーズクエリに関する詳細なケーススタディを示す。
論文 参考訳(メタデータ) (2020-08-20T15:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。