論文の概要: Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall
- arxiv url: http://arxiv.org/abs/2404.16164v1
- Date: Wed, 24 Apr 2024 19:40:01 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-26 16:02:40.908702
- Title: Towards a Holistic Evaluation of LLMs on Factual Knowledge Recall
- Title(参考訳): ファクチュアル・ナレッジ・リコールにおけるLCMの全体的評価に向けて
- Authors: Jiaqing Yuan, Lin Pan, Chung-Wei Hang, Jiang Guo, Jiarong Jiang, Bonan Min, Patrick Ng, Zhiguo Wang,
- Abstract要約: 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示している。
プレトレーニングから学んだ事実的知識をリコールするLLMの能力を評価することに注力する。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
- 参考スコア(独自算出の注目度): 31.45796499298925
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown remarkable performance on a variety of NLP tasks, and are being rapidly adopted in a wide range of use cases. It is therefore of vital importance to holistically evaluate the factuality of their generated outputs, as hallucinations remain a challenging issue. In this work, we focus on assessing LLMs' ability to recall factual knowledge learned from pretraining, and the factors that affect this ability. To that end, we construct FACT-BENCH, a representative benchmark covering 20 domains, 134 property types, 3 answer types, and different knowledge popularity levels. We benchmark 31 models from 10 model families and provide a holistic assessment of their strengths and weaknesses. We observe that instruction-tuning hurts knowledge recall, as pretraining-only models consistently outperform their instruction-tuned counterparts, and positive effects of model scaling, as larger models outperform smaller ones for all model families. However, the best performance from GPT-4 still represents a large gap with the upper-bound. We additionally study the role of in-context exemplars using counterfactual demonstrations, which lead to significant degradation of factual knowledge recall for large models. By further decoupling model known and unknown knowledge, we find the degradation is attributed to exemplars that contradict a model's known knowledge, as well as the number of such exemplars. Lastly, we fine-tune LLaMA-7B in different settings of known and unknown knowledge. In particular, fine-tuning on a model's known knowledge is beneficial, and consistently outperforms fine-tuning on unknown and mixed knowledge. We will make our benchmark publicly available.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著な性能を示しており、幅広いユースケースで急速に採用されている。
したがって、幻覚は依然として困難な問題であり、生成したアウトプットの事実性を評価することは極めて重要である。
本研究は,事前学習から学んだ事実的知識を想起するLLMの能力と,その能力に影響を与える要因を評価することに焦点を当てる。
そこで我々はFACT-BENCHを構築し,20のドメイン,134のプロパティタイプ,3つの応答タイプ,異なる知識人気レベルをカバーする。
10のモデルファミリーから31のモデルをベンチマークし、その長所と短所を総合的に評価する。
事前学習のみのモデルが命令チューニングのモデルよりも常に優れており、モデルスケーリングの肯定的な効果は、より大きなモデルがすべてのモデルファミリに対してより小さいモデルよりも優れており、インストラクションチューニングが知識リコールを損なうことを観察する。
しかし、GPT-4の最高性能は上行線との差が大きい。
さらに,反実的実演を用いたインコンテキスト・エスペクタの役割について検討し,大規模モデルにおける事実的知識リコールの大幅な低下につながった。
さらに、既知の知識と未知の知識を分離することによって、その劣化は、モデルの既知の知識と矛盾する模範者や、そのような模範者の数によって引き起こされる。
最後に、LLaMA-7Bを未知の知識の異なる設定で微調整する。
特に、モデルの既知の知識の微調整は有益であり、未知の知識と混ざった知識の微調整よりも一貫して優れている。
ベンチマークを公開します。
関連論文リスト
- CogBench: a large language model walks into a psychology lab [12.981407327149679]
本稿では,7つの認知心理学実験から得られた10の行動指標を含むベンチマークであるCogBenchを紹介する。
本稿では,CagBenchを35大言語モデル(LLM)に適用し,統計的多レベルモデリング手法を用いて解析する。
オープンソースモデルは、プロプライエタリなモデルよりもリスクが高く、コードの微調整は必ずしもLLMの振舞いを促進しない。
論文 参考訳(メタデータ) (2024-02-28T10:43:54Z) - Hallucinations or Attention Misdirection? The Path to Strategic Value
Extraction in Business Using Large Language Models [0.0]
本稿では,真の幻覚というよりも,注意方向のミス指向を定義した。
本稿では,PGI,ペルソナ,グループ,インテリジェンスといった手法のベストプラクティスを紹介する。
論文 参考訳(メタデータ) (2024-02-21T18:40:24Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Improving the Reliability of Large Language Models by Leveraging
Uncertainty-Aware In-Context Learning [76.98542249776257]
大規模言語モデルはしばしば「ハロシン化」の課題に直面している
本研究では,不確実性に応答してモデルが出力を拡張あるいは拒否することを可能にする,不確実性を考慮したコンテキスト内学習フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-07T12:06:53Z) - An Empirical Study of Catastrophic Forgetting in Large Language Models During Continual Fine-tuning [70.48605869773814]
カタストロフィック・ナッシング(英: Catastrophic forgetting、CF)は、機械学習において、モデルが新しい知識を取得しながら学習した情報を忘れたときに発生する現象である。
本研究では,大規模言語モデル(LLM)における連続的指導調律時の忘れ現象を実験的に評価する。
論文 参考訳(メタデータ) (2023-08-17T02:53:23Z) - Preserving Knowledge Invariance: Rethinking Robustness Evaluation of
Open Information Extraction [50.62245481416744]
実世界におけるオープン情報抽出モデルの評価をシミュレートする最初のベンチマークを示す。
我々は、それぞれの例が知識不変のcliqueである大規模なテストベッドを設計し、注釈付けする。
さらにロバスト性計量を解明することにより、その性能が全体の傾きに対して一貫して正確であるならば、モデルはロバストであると判断される。
論文 参考訳(メタデータ) (2023-05-23T12:05:09Z) - When Not to Trust Language Models: Investigating Effectiveness of
Parametric and Non-Parametric Memories [58.3421305091187]
本稿では,事実知識を記憶する上でのLMの強みと限界を理解することを目的とする。
LMは、あまり一般的でない事実知識に苦しむと同時に、長期にわたる事実知識の記憶力向上に失敗する。
我々は、必要時にのみ非パラメトリックメモリを検索する、強力かつ効率的な検索拡張LMの簡易かつ効果的な手法を考案する。
論文 参考訳(メタデータ) (2022-12-20T18:30:15Z) - Large Language Models with Controllable Working Memory [64.71038763708161]
大規模言語モデル(LLM)は、自然言語処理(NLP)の一連のブレークスルーをもたらした。
これらのモデルをさらに切り離すのは、事前訓練中に内在する膨大な量の世界的知識だ。
モデルの世界知識が、文脈で提示された事実情報とどのように相互作用するかは、まだ解明されていない。
論文 参考訳(メタデータ) (2022-11-09T18:58:29Z) - Who Explains the Explanation? Quantitatively Assessing Feature
Attribution Methods [0.0]
本稿では,説明の忠実度を定量化するための新しい評価指標であるフォーカス(Focus)を提案する。
ランダム化実験によって測定値のロバスト性を示し、次にFocusを用いて3つの一般的な説明可能性手法を評価し比較する。
実験の結果,LRPとGradCAMは一貫性があり信頼性が高いことがわかった。
論文 参考訳(メタデータ) (2021-09-28T07:10:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。