論文の概要: Validating ChatGPT Facts through RDF Knowledge Graphs and Sentence
Similarity
- arxiv url: http://arxiv.org/abs/2311.04524v1
- Date: Wed, 8 Nov 2023 08:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 16:54:27.088990
- Title: Validating ChatGPT Facts through RDF Knowledge Graphs and Sentence
Similarity
- Title(参考訳): RDF知識グラフと文類似性によるチャットGPTファクトの検証
- Authors: Michalis Mountantonakis and Yannis Tzitzikas
- Abstract要約: RDFにおけるChatGPTの応答を検索する新しいパイプラインを提案する。
1つ以上のRDF知識グラフを用いてChatGPT事実を検証する。
- 参考スコア(独自算出の注目度): 3.8073142980733
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Since ChatGPT offers detailed responses without justifications, and erroneous
facts even for popular persons, events and places, in this paper we present a
novel pipeline that retrieves the response of ChatGPT in RDF and tries to
validate the ChatGPT facts using one or more RDF Knowledge Graphs (KGs). To
this end we leverage DBpedia and LODsyndesis (an aggregated Knowledge Graph
that contains 2 billion triples from 400 RDF KGs of many domains) and short
sentence embeddings, and introduce an algorithm that returns the more relevant
triple(s) accompanied by their provenance and a confidence score. This enables
the validation of ChatGPT responses and their enrichment with justifications
and provenance. To evaluate this service (such services in general), we create
an evaluation benchmark that includes 2,000 ChatGPT facts; specifically 1,000
facts for famous Greek Persons, 500 facts for popular Greek Places, and 500
facts for Events related to Greece. The facts were manually labelled
(approximately 73% of ChatGPT facts were correct and 27% of facts were
erroneous). The results are promising; indicatively for the whole benchmark, we
managed to verify the 85.3% of the correct facts of ChatGPT and to find the
correct answer for the 62.6% of the erroneous ChatGPT facts.
- Abstract(参考訳): 本稿では,ChatGPTの応答をRDFで検索し,1つ以上のRDF知識グラフ(KGs)を用いてChatGPTの事実を検証しようとする新しいパイプラインを提案する。
この目的のために、DBpediaとLODsyndesis(多くのドメインの400のRDF KGから20億のトリプルを含む集約された知識グラフ)と短い文の埋め込みを活用し、その証明と信頼スコアを伴うより関連するトリプル(s)を返すアルゴリズムを導入する。
これにより、ChatGPT応答の検証と、正当化と証明による強化が可能になる。
このサービス(一般にこのようなサービス)を評価するために、2000のChatGPT事実、特に有名なギリシャ人の1000の事実、人気のあるギリシャの場所の500の事実、ギリシャ関連のイベントの500の事実を含む評価ベンチマークを作成します。
事実は手作業でラベル付けされた(ChatGPTの事実の約73%が正しく、事実の27%が間違っていた)。
ベンチマーク全体では、ChatGPTの正しい事実の85.3%を検証し、誤ったChatGPTの事実の62.6%を正解することに成功した。
関連論文リスト
- Exploring the Capability of ChatGPT to Reproduce Human Labels for Social Computing Tasks (Extended Version) [26.643834593780007]
ソーシャルコンピューティングタスクにおいてChatGPTがデータアノテートできる範囲について検討する。
ChatGPTは、いくつかの課題があるにもかかわらず、データアノテーションタスクの処理における約束を示す。
本稿では,ChatGPTが与えられたアノテーションタスクのデータを正しくラベル付けできるかどうかを予測するツールであるGPT-Raterを提案する。
論文 参考訳(メタデータ) (2024-07-08T22:04:30Z) - The Earth is Flat? Unveiling Factual Errors in Large Language Models [89.94270049334479]
ChatGPTのような大規模言語モデル(LLM)は、事前学習や微調整の知識が豊富にあるため、様々な応用がある。
それにもかかわらず、医療、ジャーナリズム、教育といった重要な分野に懸念を抱き、事実と常識の誤りを引き起こす傾向にある。
LLMにおける事実不正確な事実を明らかにすることを目的とした,新しい自動テストフレームワークであるFactCheckerを紹介する。
論文 参考訳(メタデータ) (2024-01-01T14:02:27Z) - Primacy Effect of ChatGPT [69.49920102917598]
本稿では,ChatGPTの優位性について検討する。
実験と分析により、より信頼性の高いChatGPTベースのソリューションを構築する上で、さらなる洞察が得られればと思っています。
論文 参考訳(メタデータ) (2023-10-20T00:37:28Z) - "ChatGPT, a Friend or Foe for Education?" Analyzing the User's
Perspectives on the Latest AI Chatbot Via Reddit [0.0]
この研究は、ChatGPTの教育利用に関するRedditのトップ投稿247件を分析した。
その結果,ユーザの大半が中立的な視点を採っていることがわかった。
教育におけるChatGPTの有用性については, 否定的よりも肯定的であった。
論文 参考訳(メタデータ) (2023-09-27T23:59:44Z) - What has ChatGPT read? The origins of archaeological citations used by a
generative artificial intelligence application [0.0]
本稿は,ChatGPTの訓練段階に含まれると思われる考古学文献を検証した。
ChatGPTは、一見意味のある参照を提供するが、大きなパーセンテージは虚偽であることが証明された。
ChatGPTが提供するすべての参照が本物であることが判明したことも、Wikipediaのページに引用されている。
論文 参考訳(メタデータ) (2023-08-07T05:06:35Z) - ChatLog: Carefully Evaluating the Evolution of ChatGPT Across Time [54.18651663847874]
ChatGPTは大きな成功をおさめ、インフラ的な地位を得たと考えられる。
既存のベンチマークでは,(1)周期的評価の無視,(2)きめ細かい特徴の欠如という2つの課題に直面する。
2023年3月から現在まで,21のNLPベンチマークに対して,さまざまな長文ChatGPT応答を大規模に記録した常時更新データセットであるChatLogを構築している。
論文 参考訳(メタデータ) (2023-04-27T11:33:48Z) - Using Multiple RDF Knowledge Graphs for Enriching ChatGPT Responses [0.22843885788439797]
GPToLODSは、数百のRDF KGからの情報でChatGPT応答を拡張できる。
応答の各実体をLODシンデシスKGの統計とハイパーリンクで識別し、注釈する。
論文 参考訳(メタデータ) (2023-04-12T11:33:00Z) - Is ChatGPT a Good NLG Evaluator? A Preliminary Study [121.77986688862302]
NLG測定値として信頼性を示すため,ChatGPTのメタ評価を行った。
実験の結果,ChatGPTは従来の自動測定値と比較して,人間の判断と最先端あるいは競合的な相関を達成できた。
我々の予備研究は、汎用的な信頼性のあるNLGメトリックの出現を促すことを願っている。
論文 参考訳(メタデータ) (2023-03-07T16:57:20Z) - Can ChatGPT Understand Too? A Comparative Study on ChatGPT and
Fine-tuned BERT [103.57103957631067]
チャットGPTは、人間の質問に対する流動的で高品質な応答を生成できるため、大きな注目を集めている。
そこで我々は,ChatGPTの理解能力を,最も人気のあるGLUEベンチマークで評価し,より詳細な4種類のBERTスタイルのモデルと比較した。
2)ChatGPTは,感情分析や質問応答タスクにおいて,BERTと同等のパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-02-19T12:29:33Z) - Is ChatGPT a General-Purpose Natural Language Processing Task Solver? [113.22611481694825]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクをゼロショットで実行できることを実証している。
近年、ChatGPTのデビューは自然言語処理(NLP)コミュニティから大きな注目を集めている。
ChatGPTが多くのNLPタスクをゼロショットで実行できるジェネラリストモデルとして機能するかどうかはまだ分かっていない。
論文 参考訳(メタデータ) (2023-02-08T09:44:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。