論文の概要: What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models
- arxiv url: http://arxiv.org/abs/2406.12277v2
- Date: Sat, 05 Oct 2024 01:55:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-08 13:39:43.996077
- Title: What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models
- Title(参考訳): ファクトの記憶とリコールの諸問題 : 言語モデルにおける知識探索のための多面的ベンチマーク
- Authors: Xin Zhao, Naoki Yoshinaga, Daisuke Oba,
- Abstract要約: 言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
- 参考スコア(独自算出の注目度): 15.057992220389604
- License:
- Abstract: Language models often struggle with handling factual knowledge, exhibiting factual hallucination issue. This makes it vital to evaluate the models' ability to recall its parametric knowledge about facts. In this study, we introduce a knowledge probing benchmark, BELIEF(ICL), to evaluate the knowledge recall ability of both encoder- and decoder-based pre-trained language models (PLMs) from diverse perspectives. BELIEFs utilize a multi-prompt dataset to evaluate PLM's accuracy, consistency, and reliability in factual knowledge recall. To enable a more reliable evaluation with BELIEFs, we semi-automatically create MyriadLAMA, which has massively diverse prompts. We validate the effectiveness of BELIEFs in comprehensively evaluating PLM's knowledge recall ability on diverse PLMs, including recent large language models (LLMs). We then investigate key factors in memorizing and recalling facts in PLMs, such as model size, pretraining strategy and corpora, instruction-tuning process and in-context learning settings. Finally, we reveal the limitation of the prompt-based knowledge probing. The MyriadLAMA is publicized.
- Abstract(参考訳): 言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。
これにより、モデルが事実に関するパラメトリック知識を思い出す能力を評価することが不可欠である。
本研究では,エンコーダとデコーダを用いた事前学習言語モデル(PLM)の知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。
BELIEFはPLMの正確性、一貫性、信頼性を評価するためにマルチプロンプトデータセットを使用する。
BELIEFsを用いた信頼性の高い評価を実現するために,非常に多様なプロンプトを持つMyriadLAMAを半自動生成する。
我々は,最近の大規模言語モデル(LLM)を含む多種多様なPLM上でのPLMの知識リコール能力を包括的に評価するBELIEFの有効性を検証する。
次に,モデルサイズ,事前学習戦略,コーパス,命令チューニングプロセス,コンテキスト内学習設定など,PLMの事実を記憶・思い出させる重要な要因について検討する。
最後に,素早い知識探索の限界を明らかにする。
MyriadLAMAは公開されています。
関連論文リスト
- Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。
本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文 参考訳(メタデータ) (2024-06-11T15:58:59Z) - Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。
我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文 参考訳(メタデータ) (2024-04-19T15:40:39Z) - FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。
FAC$2$E, FAC$2$Eについて述べる。
論文 参考訳(メタデータ) (2024-02-29T21:05:37Z) - KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。
KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文 参考訳(メタデータ) (2024-02-17T02:54:32Z) - Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for
Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。
本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-27T16:19:30Z) - Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。
我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。
Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文 参考訳(メタデータ) (2023-10-08T14:26:55Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification
and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。
KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。
KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文 参考訳(メタデータ) (2022-02-28T03:52:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。