論文の概要: Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall
- arxiv url: http://arxiv.org/abs/2404.16164v1
- Date: Wed, 24 Apr 2024 19:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 16:02:40.908702
- Title: Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall
- Title(参考訳): ファクチュアル・ナレッジ・リコールにおけるLCMの全体的評価に向けて
- Authors: Jiaqing Yuan, Lin Pan, Chung-Wei Hang, Jiang Guo, Jiarong Jiang, Bonan Min, Patrick Ng, Zhiguo Wang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
- 参考スコア(独自算出の注目度): 31.45796499298925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance on a variety of NLP tasks, and are being rapidly adopted in a wide range of use cases. It is therefore of vital importance to holistically evaluate the factuality of their generated outputs, as hallucinations remain a challenging issue. In this work, we focus on assessing LLMs' ability to recall factual knowledge learned from pretraining, and the factors that affect this ability. To that end, we construct FACT-BENCH, a representative benchmark covering 20 domains, 134 property types, 3 answer types, and different knowledge popularity levels. We benchmark 31 models from 10 model families and provide a holistic assessment of their strengths and weaknesses. We observe that instruction-tuning hurts knowledge recall, as pretraining-only models consistently outperform their instruction-tuned counterparts, and positive effects of model scaling, as larger models outperform smaller ones for all model families. However, the best performance from GPT-4 still represents a large gap with the upper-bound. We additionally study the role of in-context exemplars using counterfactual demonstrations, which lead to significant degradation of factual knowledge recall for large models. By further decoupling model known and unknown knowledge, we find the degradation is attributed to exemplars that contradict a model's known knowledge, as well as the number of such exemplars. Lastly, we fine-tune LLaMA-7B in different settings of known and unknown knowledge. In particular, fine-tuning on a model's known knowledge is beneficial, and consistently outperforms fine-tuning on unknown and mixed knowledge. We will make our benchmark publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示しており、幅広いユースケースで急速に採用されている。
したがって、幻覚は依然として困難な問題であり、生成したアウトプットの事実性を評価することは極めて重要である。
本研究は,事前学習から学んだ事実的知識を想起するLLMの能力と,その能力に影響を与える要因を評価することに焦点を当てる。
そこで我々はFACT-BENCHを構築し,20のドメイン,134のプロパティタイプ,3つの応答タイプ,異なる知識人気レベルをカバーする。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
事前学習のみのモデルが命令チューニングのモデルよりも常に優れており、モデルスケーリングの肯定的な効果は、より大きなモデルがすべてのモデルファミリに対してより小さいモデルよりも優れており、インストラクションチューニングが知識リコールを損なうことを観察する。
しかし、GPT-4の最高性能は上行線との差が大きい。
さらに,反実的実演を用いたインコンテキスト・エスペクタの役割について検討し,大規模モデルにおける事実的知識リコールの大幅な低下につながった。
さらに、既知の知識と未知の知識を分離することによって、その劣化は、モデルの既知の知識と矛盾する模範者や、そのような模範者の数によって引き起こされる。
最後に、LLaMA-7Bを未知の知識の異なる設定で微調整する。
特に、モデルの既知の知識の微調整は有益であり、未知の知識と混ざった知識の微調整よりも一貫して優れている。
ベンチマークを公開します。
関連論文リスト
- How Much Knowledge Can You Pack into a LoRA Adapter without Harming LLM? [55.33467849079774]
ローランク適応(ローランク適応、LoRA)は、大規模言語モデルの更新やドメイン固有適応のための一般的かつ効率的な訓練手法である。
これまでに学習した知識を損なうことなく, LoRA を用いて LLM に新たな事実を組み込む方法について検討した。
論文 参考訳(メタデータ) (2025-02-20T12:31:03Z) - Exploring Knowledge Boundaries in Large Language Models for Retrieval Judgment [56.87031484108484]
大規模言語モデル(LLM)は、その実践的応用でますます認識されている。
Retrieval-Augmented Generation (RAG)はこの課題に取り組み、LLMに大きな影響を与えている。
中立あるいは有害な結果をもたらす検索要求を最小化することにより、時間と計算コストの両方を効果的に削減できる。
論文 参考訳(メタデータ) (2024-11-09T15:12:28Z) - Gradual Learning: Optimizing Fine-Tuning with Partially Mastered Knowledge in Large Language Models [51.20499954955646]
大規模言語モデル(LLM)は、事前学習期間中に大量のテキストコーパスから膨大な量の知識を取得する。
微調整や推論のような後段では、モデルは初期訓練でカバーされていない知識に遭遇する可能性がある。
本稿では,モデル全体のテスト精度と知識保持性を改善するための2段階の微調整戦略を提案する。
論文 参考訳(メタデータ) (2024-10-08T08:35:16Z) - What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models [15.057992220389604]
言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
論文 参考訳(メタデータ) (2024-06-18T05:11:35Z) - Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Will the Real Linda Please Stand up...to Large Language Models? Examining the Representativeness Heuristic in LLMs [7.100094213474042]
大規模言語モデル(LLM)は、テキストをモデル化し、人間に似たテキストを生成するのに顕著な能力を示した。
LLMは、代表性と呼ばれる人間の意思決定において共通の認知的罠に感受性がある。
本研究は, LLM推論における代表性の影響について検討する。
論文 参考訳(メタデータ) (2024-04-01T20:15:06Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが以前に学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデルにおける連続的調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。