論文の概要: How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency
- arxiv url: http://arxiv.org/abs/2407.13578v2
- Date: Mon, 16 Dec 2024 11:23:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-17 13:52:48.756154
- Title: How Reliable are LLMs as Knowledge Bases? Re-thinking Facutality and Consistency
- Title(参考訳): 知識基盤としてのLLMはどの程度信頼性が高いか : ファシリティと一貫性を再考する
- Authors: Danna Zheng, Mirella Lapata, Jeff Z. Pan,
- Abstract要約: 大規模言語モデル (LLM) は知識ベース (KB) として研究されている。
現在の評価手法は、信頼性の高い性能の他の決定的な基準を見越して、知識の保持に過度に焦点を絞っている。
我々は,事実と一貫性を定量化するための新しい基準と指標を提案し,最終的な信頼性スコアを導いた。
- 参考スコア(独自算出の注目度): 60.25969380388974
- License:
- Abstract: Large Language Models (LLMs) are increasingly explored as knowledge bases (KBs), yet current evaluation methods focus too narrowly on knowledge retention, overlooking other crucial criteria for reliable performance. In this work, we rethink the requirements for evaluating reliable LLM-as-KB usage and highlight two essential factors: factuality, ensuring accurate responses to seen and unseen knowledge, and consistency, maintaining stable answers to questions about the same knowledge. We introduce UnseenQA, a dataset designed to assess LLM performance on unseen knowledge, and propose new criteria and metrics to quantify factuality and consistency, leading to a final reliability score. Our experiments on 26 LLMs reveal several challenges regarding their use as KBs, underscoring the need for more principled and comprehensive evaluation.
- Abstract(参考訳): 大規模言語モデル (LLMs) は知識ベース (KBs) としてますます研究されているが、現在の評価手法は知識の保持に焦点を絞りすぎており、信頼性のあるパフォーマンスのための他の重要な基準を見越している。
本研究は,信頼性の高いLLM-as-KBの使用状況を評価するための要件を再考し,事実性,見知らぬ知識に対する正確な応答の確保,一貫性,同じ知識に関する質問に対する安定した回答の維持という,2つの重要な要因を強調した。
未知の知識に基づいてLLMのパフォーマンスを評価するために設計されたデータセットUnseenQAを導入し、現実性と一貫性を定量化するための新しい基準と指標を提案し、最終的な信頼性スコアを得る。
26 LLMの実験では、KBとしての使用に関するいくつかの課題が明らかとなり、より原理的で包括的な評価の必要性が強調された。
関連論文リスト
- Decoding Knowledge in Large Language Models: A Framework for Categorization and Comprehension [14.039653386385519]
大規模言語モデル(LLM)は知識を取得し、保持し、適用する。
本稿では,LLMの知識を2次元に分類する新しいフレームワークK-(CSA)2を紹介する。
論文 参考訳(メタデータ) (2025-01-02T16:34:10Z) - A Survey on LLM-as-a-Judge [20.228675148114245]
大規模言語モデル(LLM)は、様々な領域で大きな成功を収めています。
LLMは、従来の専門家主導の評価に代わる魅力的な代替手段である。
LLM-as-a-Judgeシステムはどうやって構築できるのか?
論文 参考訳(メタデータ) (2024-11-23T16:03:35Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - TrustScore: Reference-Free Evaluation of LLM Response Trustworthiness [58.721012475577716]
大規模言語モデル(LLM)は、様々な領域にまたがる印象的な能力を示しており、その実践的応用が急増している。
本稿では,行動整合性の概念に基づくフレームワークであるTrustScoreを紹介する。
論文 参考訳(メタデータ) (2024-02-19T21:12:14Z) - BIDER: Bridging Knowledge Inconsistency for Efficient Retrieval-Augmented LLMs via Key Supporting Evidence [23.55601157586831]
本稿では,検索文書をキー・サポート・エビデンス(Key Supporting Evidence)に洗練する手法であるBIDERを紹介する。
我々は,KSEの製作から学習してBIDERを訓練し,その出力をLLMの情報取得の好みに合わせて最大化する。
BIDER は LLM の回答品質を7% 向上させ,検索文書の入力内容長を80% 削減し,既存手法より優れていた。
論文 参考訳(メタデータ) (2024-02-19T14:28:31Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - A Survey on Evaluation of Large Language Models [87.60417393701331]
大規模言語モデル(LLM)は、学術と産業の両方で人気が高まっている。
本稿では,評価方法,評価方法,評価方法の3つの重要な側面に焦点をあてる。
論文 参考訳(メタデータ) (2023-07-06T16:28:35Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [87.96683299084788]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
人間の認知を模倣して、知識関連能力の4段階の分類を形成し、19ドルのタスクをカバーします。
私たちは、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集された新興コーパスを使用して、目に見えないデータや進化する知識を扱う能力を評価します。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。