論文の概要: GPTKB: Building Very Large Knowledge Bases from Language Models
- arxiv url: http://arxiv.org/abs/2411.04920v1
- Date: Thu, 07 Nov 2024 17:57:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-28 17:07:45.466146
- Title: GPTKB: Building Very Large Knowledge Bases from Language Models
- Title(参考訳): GPTKB: 言語モデルから非常に大きな知識ベースを構築する
- Authors: Yujia Hu, Shrestha Ghosh, Tuan-Phong Nugyen, Simon Razniewski,
- Abstract要約: 我々は,大言語モデル(LLM)から大域的汎用KBを構築することを提案する。
プロトタイプとして、GPT-4o-miniを使用して、GPTKBを構築します。
NLPにとって、LLMの知識(または信念)に関するテキスト構築的な洞察を初めて提供する。
- 参考スコア(独自算出の注目度): 13.057373604599265
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: General-domain knowledge bases (KB), in particular the "big three" -- Wikidata, Yago and DBpedia -- are the backbone of many intelligent applications. While these three have seen steady development, comprehensive KB construction at large has seen few fresh attempts. In this work, we propose to build a large general-domain KB entirely from a large language model (LLM). We demonstrate the feasibility of large-scale KB construction from LLMs, while highlighting specific challenges arising around entity recognition, entity and property canonicalization, and taxonomy construction. As a prototype, we use GPT-4o-mini to construct GPTKB, which contains 105 million triples for more than 2.9 million entities, at a cost 100x less than previous KBC projects. Our work is a landmark for two fields: For NLP, for the first time, it provides \textit{constructive} insights into the knowledge (or beliefs) of LLMs. For the Semantic Web, it shows novel ways forward for the long-standing challenge of general-domain KB construction. GPTKB is accessible at https://gptkb.org.
- Abstract(参考訳): 一般ドメイン知識ベース(KB)、特に"ビッグ3"(Wikidata、Yago、DBpedia)は、多くのインテリジェントなアプリケーションのバックボーンです。
これら3つは着実に開発が進んでいるが、総じて総合的なKB構造は、新しい試みがほとんどない。
本研究では,大規模言語モデル(LLM)をベースとした汎用KBの構築を提案する。
LLMによる大規模KB構築の実現可能性を示すとともに、エンティティ認識、エンティティとプロパティの正準化、分類学構築に関する具体的な課題を強調した。
プロトタイプとして、GPT-4o-miniを使用して、従来のKBCプロジェクトの1倍のコストで、290万以上のエンティティに対して105万トリプルを含むGPTKBを構築します。
我々の研究は2つの分野のランドマークとなっている: NLPにとって、初めて、LLMの知識(または信念)に関する『textit{constructive}』の洞察を提供する。
Semantic Webでは、汎用KB構築という長年にわたる課題に対して、新たな方向性を示す。
GPTKBはhttps://gptkb.org.comで入手できる。
関連論文リスト
- A Comprehensive Analysis on LLM-based Node Classification Algorithms [21.120619437937382]
我々はLarge Language Models (LLMs) を用いたノード分類のための包括的でテストベッドを開発する。
10のデータセット、8つのLLMベースのアルゴリズム、3つの学習パラダイムを含み、新しいメソッドとデータセットで簡単に拡張できるように設計されている。
パフォーマンスに影響を与える重要な設定を決定するために、広範な実験、トレーニング、および2200以上のモデルの評価を行います。
その結果, LLM法は半教師付き環境で従来の手法を著しく上回り, その利点は教師付き環境ではごくわずかである,という8つの知見が得られた。
論文 参考訳(メタデータ) (2025-02-02T15:56:05Z) - LUK: Empowering Log Understanding with Expert Knowledge from Large Language Models [32.65636568742875]
小言語モデル (PLM) と大言語モデル (LLM) は、ログ分析における現在の主流のアプローチとなっている。
本稿では,LLMから専門知識を自動取得するLUKと呼ばれる新しい知識向上フレームワークを導入し,これらの知識を用いてログ解析を行うため,より小さなPLMを向上する。
LUKは、異なるログ分析タスクに関する最先端の結果を達成し、LLMからのエキスパート知識をより効果的に利用してログを理解するための広範な実験を行った。
論文 参考訳(メタデータ) (2024-09-03T13:58:34Z) - An Empirical Study on Challenges for LLM Application Developers [28.69628251749012]
私たちは、人気のあるOpenAI開発者フォーラムから29,057の関連質問をクロールして分析します。
2,364の質問を手動で分析した後、LLM開発者が直面している課題の分類を構築した。
論文 参考訳(メタデータ) (2024-08-06T05:46:28Z) - A Learn-Then-Reason Model Towards Generalization in Knowledge Base Question Answering [17.281005999581865]
FreebaseやWikidataのような大規模知識ベース(KB)には、数百万の構造化知識がある。
Knowledge Base Question Answering (KBQA)は、自然言語の質問を通じて、これらの貴重なKBにアクセスするためのユーザフレンドリな方法を提供する。
本稿では,KBLLaMAを開発した。KBLLaMAは,新しいKB知識を言語モデルに注入し,フレキシブルなエンドツーエンドKBQAを実現するためのフレームワークである。
論文 参考訳(メタデータ) (2024-06-20T22:22:41Z) - Perception of Knowledge Boundary for Large Language Models through Semi-open-ended Question Answering [67.94354589215637]
大きな言語モデル(LLM)は知識探索に広く用いられているが、幻覚に悩まされている。
本稿では,LLMの知識境界(KB)を半オープンな質問(SoeQ)で知覚する。
GPT-4 は SoeQ では性能が悪く,KB に気づいていないことが多い。
我々の補助モデルであるLLaMA-2-13Bは、より曖昧な答えを見つけるのに有効である。
論文 参考訳(メタデータ) (2024-05-23T10:00:14Z) - Large Language Models Meet NLP: A Survey [79.74450825763851]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて印象的な機能を示している。
本研究は,以下の課題を探求することによって,このギャップに対処することを目的とする。
論文 参考訳(メタデータ) (2024-05-21T14:24:01Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Evaluating the Knowledge Base Completion Potential of GPT [29.75708908603862]
GPT-3では、Wikidataを2700万の事実を90%の精度で拡張することができる。
適切なしきい値設定により、GPT-3 は Wikidata を 90% の精度で 2700万 の事実で拡張できることを示す。
論文 参考訳(メタデータ) (2023-10-23T10:15:13Z) - LLM2KB: Constructing Knowledge Bases using instruction tuned context
aware Large Language Models [0.8702432681310401]
本稿では,大規模言語モデルを用いた知識ベース構築システム LLM2KB を提案する。
ISWC 2023で開かれたLM-KBCチャレンジでは,21関係の平均F1スコアが0.6185に達した。
論文 参考訳(メタデータ) (2023-08-25T07:04:16Z) - KnowledGPT: Enhancing Large Language Models with Retrieval and Storage
Access on Knowledge Bases [55.942342665806656]
KnowledGPTは、様々な知識ベースで大きな言語モデルをブリッジするための包括的なフレームワークである。
検索プロセスでは思考プロンプトプログラムを使用し,KBの検索言語をコード形式で生成する。
KnowledGPTは、個々のユーザ要求に合わせて、知識をパーソナライズされたKBに格納する機能を提供する。
論文 参考訳(メタデータ) (2023-08-17T13:07:00Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Measuring the Knowledge Acquisition-Utilization Gap in Pretrained
Language Models [26.342351417963965]
事前訓練された言語モデル(PLM)は、膨大な量の知識を取得する証拠を示している。
このパラメトリックな知識が、下流のタスクの実行に実際にどの程度使えるかは、まだ不明である。
PLMにおけるパラメトリック知識利用量を測定するための体系的枠組みを提案する。
論文 参考訳(メタデータ) (2023-05-24T06:26:11Z) - Cross-Lingual Question Answering over Knowledge Base as Reading
Comprehension [61.079852289005025]
知識ベース(xKBQA)に対する言語間質問応答は、提供された知識ベースとは異なる言語での質問に答えることを目的としている。
xKBQAが直面する大きな課題の1つは、データアノテーションのコストが高いことである。
読解パラダイムにおけるxKBQAの新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-02-26T05:52:52Z) - A Review on Language Models as Knowledge Bases [55.035030134703995]
近年,知識ベース (KB) としての事前訓練言語モデル (LM) の利用に対する,NLPコミュニティへの関心が高まっている。
論文 参考訳(メタデータ) (2022-04-12T18:35:23Z) - Prix-LM: Pretraining for Multilingual Knowledge Base Construction [59.02868906044296]
複数言語による知識構築と完成のための統合フレームワークである Prix-LM を提案する。
既存の多言語KBから抽出したモノリンガルトリプルとクロスリンガルリンクの2種類の知識を利用する。
複数の言語におけるリンク予測、言語間リンク、バイリンガル語彙誘導など、標準的なエンティティ関連タスクの実験は、その効果を実証している。
論文 参考訳(メタデータ) (2021-10-16T02:08:46Z) - SYGMA: System for Generalizable Modular Question Answering OverKnowledge
Bases [57.89642289610301]
SYGMAは、複数の知識ベースと複数のリアソニングタイプにまたがる汎用化を容易にするモジュラーアプローチである。
本システムの有効性を,DBpediaとWikidataの2つの異なる知識ベースに属するデータセットを用いて評価することで実証する。
論文 参考訳(メタデータ) (2021-09-28T01:57:56Z) - CogNet: Bridging Linguistic Knowledge, World Knowledge and Commonsense
Knowledge [22.01447874535337]
CogNetは3種類の知識を統合するための知識ベース(KB)である。
FrameNetからの言語知識。状況、オブジェクト、イベントをスキーマ的に記述する。
特定のインスタンスに関する明確な知識を提供するYAGO、Freebase、DBpedia、Wikidataの世界の知識。
暗黙の一般的な事実を記述するConceptNetの常識知識。
論文 参考訳(メタデータ) (2021-03-03T02:47:18Z) - Reasoning Over Virtual Knowledge Bases With Open Predicate Relations [85.19305347984515]
Open Predicate Query Language (OPQL) を紹介します。
OPQLは、テキストから完全にトレーニングされた仮想知識ベース(VKB)を構築する方法である。
OPQLは2つの異なるKB推論タスクにおいて、以前のVKBメソッドよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-02-14T01:29:54Z) - Beyond I.I.D.: Three Levels of Generalization for Question Answering on
Knowledge Bases [63.43418760818188]
GrailQA.comは64,331の質問で、新しい大規模で高品質なデータセットをリリースしました。
BERTベースのKBQAモデルを提案する。
データセットとモデルの組み合わせにより、KBQAの一般化におけるBERTのような事前学習されたコンテキスト埋め込みの重要な役割を、初めて徹底的に検証し、実証することが可能になります。
論文 参考訳(メタデータ) (2020-11-16T06:36:26Z) - Language Models as Knowledge Bases: On Entity Representations, Storage
Capacity, and Paraphrased Queries [35.57443199012129]
事前訓練された言語モデルは、構造化された知識ベースに対する代替または補完として提案されている。
ここでは、LMをKBとして扱うための2つの基本的な要件を定式化する。
我々は、LMが数百万のエンティティを表現できる3つのエンティティ表現を探索し、LMにおける世界知識のパラフレーズクエリに関する詳細なケーススタディを示す。
論文 参考訳(メタデータ) (2020-08-20T15:39:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。