論文の概要: Statistical Knowledge Assessment for Generative Language Models
- arxiv url: http://arxiv.org/abs/2305.10519v1
- Date: Wed, 17 May 2023 18:54:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-19 18:17:15.771723
- Title: Statistical Knowledge Assessment for Generative Language Models
- Title(参考訳): 生成言語モデルの統計的知識評価
- Authors: Qingxiu Dong, Jingjing Xu, Lingpeng Kong, Zhifang Sui and Lei Li
- Abstract要約: ジェネレーティブ言語モデル(GLM)は、事実知識を保存し、クエリーを効率的に答える能力を示した。
本稿では,潜伏変数とKaRR測定値によって導かれる統計的知識評価フレームワークを紹介する。
LLaMA, Alpaca, OPTなどを含む14のGLMの知識を網羅的に比較する。
- 参考スコア(独自算出の注目度): 36.952753403373585
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generative Language Models (GLMs) have demonstrated capabilities to store
factual knowledge and answer queries efficiently. Given varying prompts, does a
GLM consistently generate factually correct answers? In this paper, we
introduce a statistical knowledge assessment framework guided by latent
variables and the KaRR metric, which quantifies a model's knowledge by
computing its continuous probability across diverse text forms. We conduct a
comprehensive comparison of knowledge across 14 GLMs using our framework,
including LLaMA, Alpaca, OPT, and others. Our statistical knowledge assessment
encompasses 600 relation types and exhibits a strong correlation (0.43
Kendall's $\tau$) with human evaluation. Our findings reveal that the knowledge
in GLMs with the same backbone architecture adheres to the scaling law, and
that tuning on instruction-following data may compromise the model's ability to
generate factually correct text consistently.
- Abstract(参考訳): ジェネレーティブ言語モデル(GLM)は、事実知識を保存し、クエリーを効率的に答える能力を示した。
様々なプロンプトが与えられたら、GLMは一貫して事実的に正しい答えを生成するのか?
本稿では,潜在変数に導かれる統計的知識評価フレームワークと,多種多様なテキスト形式の連続確率を計算することによってモデルの知識を定量化するKaRRメトリックを紹介する。
LLaMA, Alpaca, OPTなどを含む14のGLMを対象とした総合的な知識比較を行う。
統計的知識アセスメントは600の関連タイプを包含し,人間評価と強い相関(0.43ケンドールの$\tau$)を示す。
この結果から,同じバックボーン構造を持つGLMの知識はスケーリング法則に則っており,命令追従データへのチューニングは,実際の正しいテキストを一貫して生成するモデルの能力を損なう可能性が示唆された。
関連論文リスト
- WikiContradict: A Benchmark for Evaluating LLMs on Real-World Knowledge Conflicts from Wikipedia [59.96425443250666]
Retrieval-augmented Generation (RAG) は,大規模言語モデル(LLM)の限界を緩和する,有望なソリューションとして登場した。
本研究では,ウィキペディアからの矛盾文に基づく質問に対するLLM生成回答の総合評価を行う。
我々は、単一のパスを持つRAGと2つの矛盾するパスを持つRAGを含む、様々なQAシナリオ下で、クローズドおよびオープンソース両方のLSMをベンチマークする。
論文 参考訳(メタデータ) (2024-06-19T20:13:42Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves [57.974103113675795]
本稿では,Rephrase and Respond'(RaR)という手法を提案する。
RaRは、パフォーマンスを改善するためのシンプルだが効果的なプロンプト方法として機能する。
また,RaRは理論的にも経験的にも,一般的なChain-of-Thought(CoT)法と相補的であることを示す。
論文 参考訳(メタデータ) (2023-11-07T18:43:34Z) - Knowing What LLMs DO NOT Know: A Simple Yet Effective Self-Detection Method [36.24876571343749]
大規模言語モデル(LLM)は自然言語処理(NLP)タスクにおいて大きな可能性を示している。
近年の文献では、LLMは断続的に非実効応答を生成する。
本研究では,LLM が知らない質問が非現実的な結果を生成する傾向にあることを検知する新たな自己検出手法を提案する。
論文 参考訳(メタデータ) (2023-10-27T06:22:14Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Head-to-Tail: How Knowledgeable are Large Language Models (LLMs)? A.K.A. Will LLMs Replace Knowledge Graphs? [24.931467926497152]
Head-to-Tailは、ヘッド、トーソ、テールファクトに関する18Kの質問対で構成されるベンチマークである。
既存のLSMは、特に胴体と尾部の実体の事実において、事実知識の把握の観点からはまだ完璧ではないことを示す。
論文 参考訳(メタデータ) (2023-08-20T05:31:03Z) - Knowledge-Augmented Language Model Prompting for Zero-Shot Knowledge
Graph Question Answering [7.888547093390469]
大言語モデル(LLM)は、ゼロショットのクローズドブック質問応答タスクを実行することができる。
我々は,LSMの入力において,その知識を直接拡張することを提案する。
我々のフレームワークであるKAPING(Knowledge-Augmented Language Model Prompting)は、モデルトレーニングを必要としないため、完全にゼロショットである。
論文 参考訳(メタデータ) (2023-06-07T04:15:21Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。