論文の概要: Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction
- arxiv url: http://arxiv.org/abs/2404.12957v2
- Date: Tue, 17 Dec 2024 15:38:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-18 13:56:09.164688
- Title: Towards Reliable Latent Knowledge Estimation in LLMs: Zero-Prompt Many-Shot Based Factual Knowledge Extraction
- Title(参考訳): LLMにおける信頼できる潜在的知識推定に向けて:ゼロプロンプト多ショットに基づくファクチュアル知識抽出
- Authors: Qinyuan Wu, Mohammad Aflah Khan, Soumi Das, Vedant Nanda, Bishwamittra Ghosh, Camila Kolling, Till Speicher, Laurent Bindschaedler, Krishna P. Gummadi, Evimaria Terzi,
- Abstract要約: 本稿では,大規模言語モデル(LLM)を事実知識として探索する場合に,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMの文脈内学習能力を活用している。
我々は,Wikidata の知識ベースから,さまざまなオープンソース LLM の事実知識を,膨大な関連性や事実に対して大規模に評価する。
- 参考スコア(独自算出の注目度): 15.534647327246239
- License:
- Abstract: In this paper, we focus on the challenging task of reliably estimating factual knowledge that is embedded inside large language models (LLMs). To avoid reliability concerns with prior approaches, we propose to eliminate prompt engineering when probing LLMs for factual knowledge. Our approach, called Zero-Prompt Latent Knowledge Estimator (ZP-LKE), leverages the in-context learning ability of LLMs to communicate both the factual knowledge question as well as the expected answer format. Our knowledge estimator is both conceptually simpler (i.e., doesn't depend on meta-linguistic judgments of LLMs) and easier to apply (i.e., is not LLM-specific), and we demonstrate that it can surface more of the latent knowledge embedded in LLMs. We also investigate how different design choices affect the performance of ZP-LKE. Using the proposed estimator, we perform a large-scale evaluation of the factual knowledge of a variety of open-source LLMs, like OPT, Pythia, Llama(2), Mistral, Gemma, etc. over a large set of relations and facts from the Wikidata knowledge base. We observe differences in the factual knowledge between different model families and models of different sizes, that some relations are consistently better known than others but that models differ in the precise facts they know, and differences in the knowledge of base models and their finetuned counterparts. Code available at: https://github.com/QinyuanWu0710/ZeroPrompt_LKE
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)に埋め込まれた事実知識を確実に推定する課題に焦点を当てる。
従来の手法による信頼性の懸念を避けるため,現実知識のためのLLMの探索において,迅速なエンジニアリングを不要にすることを提案する。
我々のアプローチはZP-LKE(Zero-Prompt Latent Knowledge Estimator)と呼ばれ、LLMのコンテキスト内学習能力を活用して、現実的な知識問題と期待される回答形式の両方を伝達する。
我々の知識推定器は概念的に単純であり(すなわち LLM のメタ言語的判断に依存しない)、適用し易く(すなわち LLM 固有のものではない)、LLM に埋め込まれた潜伏知識のより多くを明らかにすることができる。
また,異なる設計選択がZP-LKEの性能に与える影響についても検討する。
提案した推定器を用いて,Wikidata の知識ベースから,OPT,Pythia,Llama(2),Mistral,Gemmaなど,さまざまなオープンソース LLM の事実知識の大規模評価を行う。
異なるモデルファミリと異なるサイズのモデルの間の事実的知識の相違、いくつかの関係が他のモデルよりも一貫して良く知られているが、モデルが知っている正確な事実と、ベースモデルとその微調整されたモデルの知識の相違を観察する。
https://github.com/QinyuanWu0710/ZeroPrompt_LKE
関連論文リスト
- What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Small Models, Big Insights: Leveraging Slim Proxy Models To Decide When and What to Retrieve for LLMs [60.40396361115776]
本稿では,スリムプロキシモデルを用いた大規模言語モデル (LLM) における知識不足を検知する新しい協調手法であるSlimPLMを提案する。
パラメータがはるかに少ないプロキシモデルを採用し、回答を回答としています。
ヒューリスティックな回答は、LLM内の既知の未知の知識と同様に、ユーザの質問に答えるために必要な知識を予測するのに使用される。
論文 参考訳(メタデータ) (2024-02-19T11:11:08Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? [24.931467926497152]
Head-to-Tailは、ヘッド、トーソ、テールファクトに関する18Kの質問対で構成されるベンチマークである。
既存のLSMは、特に胴体と尾部の実体の事実において、事実知識の把握の観点からはまだ完璧ではないことを示す。
論文 参考訳(メタデータ) (2023-08-20T05:31:03Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Investigating the Factual Knowledge Boundary of Large Language Models with Retrieval Augmentation [109.8527403904657]
大規模言語モデル(LLM)は,その知識に対する信頼度が低く,内部知識と外部知識の衝突をうまく扱えないことを示す。
検索の強化は、LLMの知識境界に対する認識を高める効果的なアプローチであることが証明されている。
本稿では,文書を動的に活用するための簡易な手法を提案する。
論文 参考訳(メタデータ) (2023-07-20T16:46:10Z) - Statistical Knowledge Assessment for Large Language Models [79.07989821512128]
ファクトイドの問題に関する様々なプロンプトを考慮すれば、大きな言語モデル(LLM)は事実的に正しい答えを確実に生成できるだろうか?
LLMの事実知識を評価する統計的手法であるKaRRを提案する。
この結果から,同じバックボーン構造を持つLLMの知識はスケーリング法則に則っており,命令追従データに基づくチューニングは,実際に正しいテキストを確実に生成するモデルの能力を損なう場合があることがわかった。
論文 参考訳(メタデータ) (2023-05-17T18:54:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。