Fugu-MT 論文翻訳(概要): What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models

論文の概要: What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models

arxiv url: http://arxiv.org/abs/2406.12277v3
Date: Tue, 08 Oct 2024 12:26:25 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-02 11:57:11.990133
Title: What Matters in Memorizing and Recalling Facts? Multifaceted Benchmarks for Knowledge Probing in Language Models
Title（参考訳）: ファクトの記憶とリコールの諸問題 : 言語モデルにおける知識探索のための多面的ベンチマーク
Authors: Xin Zhao, Naoki Yoshinaga, Daisuke Oba,
Abstract要約: 言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。本稿では,エンコーダとデコーダを用いた事前学習言語モデルの知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。非常に多様なプロンプトを持つMyriadLAMAを半自動で作成します。
参考スコア（独自算出の注目度）: 15.057992220389604
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Language models often struggle with handling factual knowledge, exhibiting factual hallucination issue. This makes it vital to evaluate the models' ability to recall its parametric knowledge about facts. In this study, we introduce a knowledge probing benchmark, BELIEF(ICL), to evaluate the knowledge recall ability of both encoder- and decoder-based pre-trained language models (PLMs) from diverse perspectives. BELIEFs utilize a multi-prompt dataset to evaluate PLM's accuracy, consistency, and reliability in factual knowledge recall. To enable a more reliable evaluation with BELIEFs, we semi-automatically create MyriadLAMA, which has massively diverse prompts. We validate the effectiveness of BELIEFs in comprehensively evaluating PLM's knowledge recall ability on diverse PLMs, including recent large language models (LLMs). We then investigate key factors in memorizing and recalling facts in PLMs, such as model size, pretraining strategy and corpora, instruction-tuning process and in-context learning settings. Finally, we reveal the limitation of the prompt-based knowledge probing. The MyriadLAMA is publicized.
Abstract（参考訳）: 言語モデルは事実の知識を扱うのに苦労し、事実の幻覚の問題を呈する。これにより、モデルが事実に関するパラメトリック知識を思い出す能力を評価することが不可欠である。本研究では,エンコーダとデコーダを用いた事前学習言語モデル(PLM)の知識リコール能力を評価するための知識探索ベンチマークBELIEF(ICL)を提案する。 BELIEFはPLMの正確性、一貫性、信頼性を評価するためにマルチプロンプトデータセットを使用する。 BELIEFsを用いた信頼性の高い評価を実現するために,非常に多様なプロンプトを持つMyriadLAMAを半自動生成する。我々は,最近の大規模言語モデル(LLM)を含む多種多様なPLM上でのPLMの知識リコール能力を包括的に評価するBELIEFの有効性を検証する。次に,モデルサイズ,事前学習戦略,コーパス,命令チューニングプロセス,コンテキスト内学習設定など,PLMの事実を記憶・思い出させる重要な要因について検討する。最後に,素早い知識探索の限界を明らかにする。 MyriadLAMAは公開されています。

関連論文リスト

Pre-training Large Memory Language Models with Internal and External Knowledge [33.69960609226293]
本稿では,内部重みと外部データベースの両方に事実知識を格納する事前学習レシピを備えた,新たな言語モデルであるLarge Memory Language Models (LMLM)を提案する。提案手法は,トレーニング損失から現実の値を戦略的に隠蔽し,モデル重みの記憶に頼るのではなく,対象のルックアップを実行するようにモデルに指示する。
論文参考訳（メタデータ） (2025-05-21T19:26:03Z)
Large language models could be rote learners [13.607635426273607]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)ベンチマークが広く使用されている。本研究では,汚染を学習の本質的な側面として再編成し,表層記憶からの真の能力獲得を抑えることを目的とする。本稿では,MCQを新たなトリニティ形式に再構成し,知識評価を維持しつつ記憶を減らし,新たな評価フレームワークであるTrinEvalを提案する。
論文参考訳（メタデータ） (2025-04-11T07:04:44Z)
Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文参考訳（メタデータ） (2024-06-11T15:58:59Z)
Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文参考訳（メタデータ） (2024-04-19T15:40:39Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。 KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文参考訳（メタデータ） (2024-02-17T02:54:32Z)
Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-27T16:19:30Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)
Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文参考訳（メタデータ） (2023-05-15T15:47:09Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)
KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。 KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。 KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文参考訳（メタデータ） (2022-02-28T03:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。