論文の概要: Large Language Models as Reliable Knowledge Bases?
- arxiv url: http://arxiv.org/abs/2407.13578v1
- Date: Thu, 18 Jul 2024 15:20:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 14:51:11.031034
- Title: Large Language Models as Reliable Knowledge Bases?
- Title(参考訳): 信頼できる知識基盤としての大規模言語モデル?
- Authors: Danna Zheng, Mirella Lapata, Jeff Z. Pan,
- Abstract要約: 大きな言語モデル(LLM)は潜在的な知識ベース(KB)と見なすことができる。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性に焦点をあてる。
ICLや微調整のような戦略は、LLMをより良くKBにするには失敗している。
- 参考スコア(独自算出の注目度): 60.25969380388974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The NLP community has recently shown a growing interest in leveraging Large Language Models (LLMs) for knowledge-intensive tasks, viewing LLMs as potential knowledge bases (KBs). However, the reliability and extent to which LLMs can function as KBs remain underexplored. While previous studies suggest LLMs can encode knowledge within their parameters, the amount of parametric knowledge alone is not sufficient to evaluate their effectiveness as KBs. This study defines criteria that a reliable LLM-as-KB should meet, focusing on factuality and consistency, and covering both seen and unseen knowledge. We develop several metrics based on these criteria and use them to evaluate 26 popular LLMs, while providing a comprehensive analysis of the effects of model size, instruction tuning, and in-context learning (ICL). Our results paint a worrying picture. Even a high-performant model like GPT-3.5-turbo is not factual or consistent, and strategies like ICL and fine-tuning are unsuccessful at making LLMs better KBs.
- Abstract(参考訳): NLPコミュニティは最近、LLMを潜在的な知識ベース(KB)と見なしながら、知識集約的なタスクにLLM(Large Language Models)を活用することへの関心が高まっている。
しかし、LLMがKBとして機能する信頼性と範囲は未解明のままである。
従来の研究では、LLMはパラメータ内の知識を符号化できるが、パラメトリック知識の量だけではKBとしての有効性を評価するには不十分である。
本研究は、信頼性の高いLLM-as-KBが満たすべき基準を定義し、事実性と一貫性を重視し、目に見えない知識と見えない知識の両方をカバーする。
我々はこれらの基準に基づいていくつかの指標を開発し、26の人気のあるLCMを評価しながら、モデルサイズ、命令チューニング、文脈内学習(ICL)の影響を包括的に分析する。
私たちの結果は心配そうな絵を描きます。
GPT-3.5-turboのような高性能モデルでさえ現実的あるいは一貫したものではなく、ICLや微調整のような戦略はLCMをより良いKBにすることに失敗している。
関連論文リスト
- Traditional Methods Outperform Generative LLMs at Forecasting Credit Ratings [17.109522466982476]
大規模言語モデル(LLM)は多くの下流タスクでうまく機能することが示されている。
本稿では,企業信用格付け予測におけるLCMの業績について検討する。
論文 参考訳(メタデータ) (2024-07-24T20:30:55Z) - CLAMBER: A Benchmark of Identifying and Clarifying Ambiguous Information Needs in Large Language Models [60.59638232596912]
大規模言語モデル(LLM)を評価するベンチマークであるCLAMBERを紹介する。
分類を基盤として12Kの高品質なデータを構築し, 市販のLCMの強度, 弱点, 潜在的なリスクを評価する。
本研究は, あいまいなユーザクエリの特定と明確化において, 現在のLCMの実用性に限界があることを示唆する。
論文 参考訳(メタデータ) (2024-05-20T14:34:01Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Fairness of ChatGPT and the Role Of Explainable-Guided Prompts [6.079011829257036]
本研究では,大規模言語モデル(LLM),特に OpenAI の GPT の信用リスク評価における可能性について検討する。
この結果から,LLMは従来の機械学習(ML)モデルの性能を並列化できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-07-14T09:20:16Z) - Give Us the Facts: Enhancing Large Language Models with Knowledge Graphs
for Fact-aware Language Modeling [34.59678835272862]
代表的大規模言語モデル(LLM)であるChatGPTは、その強力な創発的能力のために注目されている。
本稿では,知識グラフ強化大言語モデル(KGLLM)によるLLMの強化を提案する。
KGLLMはLLMの事実推論能力を高めるソリューションを提供し、LLM研究のための新たな道を開く。
論文 参考訳(メタデータ) (2023-06-20T12:21:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。