論文の概要: Traceable LLM-based validation of statements in knowledge graphs
- arxiv url: http://arxiv.org/abs/2409.07507v1
- Date: Wed, 11 Sep 2024 12:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 20:40:16.921890
- Title: Traceable LLM-based validation of statements in knowledge graphs
- Title(参考訳): トレーサブルLSMによる知識グラフにおける文の検証
- Authors: Daniel Adam, Tomáš Kliegr,
- Abstract要約: 本稿では,LLMを用いたRDF三重項の検証手法を提案する。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
このワークフローのバイオサイエンスコンテンツへの適用性を評価するため,BioREDデータセットから1,719個の正のステートメントと,新たに生成された負のステートメントの数を比較検討した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This article presents a method for verifying RDF triples using LLMs, with an emphasis on providing traceable arguments. Because the LLMs cannot currently reliably identify the origin of the information used to construct the response to the user query, our approach is to avoid using internal LLM factual knowledge altogether. Instead, verified RDF statements are compared to chunks of external documents retrieved through a web search or Wikipedia. To assess the possible application of this workflow on biosciences content, we evaluated 1,719 positive statements from the BioRED dataset and the same number of newly generated negative statements. The resulting precision is 88%, and recall is 44%. This indicates that the method requires human oversight. We demonstrate the method on Wikidata, where a SPARQL query is used to automatically retrieve statements needing verification. Overall, the results suggest that LLMs could be used for large-scale verification of statements in KGs, a task previously unfeasible due to human annotation costs.
- Abstract(参考訳): 本稿では,LLMを用いたRDF三重項の検証手法を提案する。
LLMは、ユーザクエリに対する応答を構築するのに使用される情報の起源を、現在確実に特定できないため、我々のアプローチは、内部のLLMの事実知識を完全に使用することを避けることである。
代わりに、認証されたRDF文は、ウェブ検索またはウィキペディアで検索された外部文書の断片と比較される。
このワークフローのバイオサイエンスコンテンツへの適用性を評価するため,BioREDデータセットから1,719個の正のステートメントと,新たに生成された負のステートメントの数を比較検討した。
その結果の精度は88%、リコール率は44%である。
これは、この方法が人間の監視を必要とすることを示している。
本手法はWikidata上で,SPARQLクエリを用いて検証が必要な文を自動的に検索する手法である。
以上の結果から,LLMは人為的アノテーションのコストが原因で従来不可能であったKGにおける文の大規模検証に有効であることが示唆された。
関連論文リスト
- Knowing When to Ask -- Bridging Large Language Models and Data [3.111987311375933]
大規模言語モデル(LLM)は、数値および統計データやその他のタイムリーな事実を含むクエリに応答するときに、事実的に誤った情報を生成する傾向がある。
本稿では,LLMをData Commonsに統合することで,LCMの精度を高める手法を提案する。
論文 参考訳(メタデータ) (2024-09-10T17:51:21Z) - LLMJudge: LLMs for Relevance Judgments [37.103230004631996]
この挑戦は、SIGIR 2024のLLM4Evalワークショップの一部として組織されている。
近年の研究では,LLMが検索システムに対して信頼性の高い妥当性判定を生成できることが示されている。
収集したデータは、自動関連判断研究を支援するパッケージとして公開される。
論文 参考訳(メタデータ) (2024-08-09T23:15:41Z) - CaLM: Contrasting Large and Small Language Models to Verify Grounded Generation [76.31621715032558]
グラウンデッドジェネレーションは、言語モデル(LM)に、より信頼性が高く説明可能な応答を生成する能力を持たせることを目的としている。
本稿では,新しい検証フレームワークであるCaLMを紹介する。
我々のフレームワークは、より少ないパラメトリックメモリに依存する小さなLMを有効活用し、より大きなLMの出力を検証する。
論文 参考訳(メタデータ) (2024-06-08T06:04:55Z) - Are you still on track!? Catching LLM Task Drift with Activations [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Increasing the LLM Accuracy for Question Answering: Ontologies to the Rescue! [1.0786522863027366]
本稿では,1)オントロジーに基づくクエリチェック (OBQC) と2) LLM修復からなるアプローチを提案する。
当社のアプローチでは、"知らない"結果の8%を含む、全体的な精度を72%に向上しています。
論文 参考訳(メタデータ) (2024-05-20T00:28:00Z) - $\forall$uto$\exists$val: Autonomous Assessment of LLMs in Formal Synthesis and Interpretation Tasks [21.12437562185667]
本稿では,形式構文を自然言語に翻訳する際のLLM評価のスケールアップ手法を提案する。
我々は、文脈自由文法(CFG)を用いて、その場で配布外のデータセットを生成する。
我々はまた、このパラダイムの実現可能性と拡張性を示すために、複数のSOTAクローズドおよびオープンソースLCMの評価を行う。
論文 参考訳(メタデータ) (2024-03-27T08:08:00Z) - LLatrieval: LLM-Verified Retrieval for Verifiable Generation [67.93134176912477]
検証可能な生成は、大きな言語モデル(LLM)がドキュメントをサポートするテキストを生成することを目的としている。
本稿では,LLatrieval (Large Language Model Verified Retrieval)を提案する。
実験により、LLatrievalは幅広いベースラインを著しく上回り、最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2023-11-14T01:38:02Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。