Fugu-MT 論文翻訳(概要): What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets

論文の概要: What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets

arxiv url: http://arxiv.org/abs/2406.12277v1
Date: Tue, 18 Jun 2024 05:11:35 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 20:45:27.800121
Title: What Matters in Learning Facts in Language Models? Multifaceted Knowledge Probing with Diverse Multi-Prompt Datasets
Title（参考訳）: 言語モデルにおけるファクト学習の課題 : 多様なマルチプロンプトデータセットを用いた多面的知識の探索
Authors: Xin Zhao, Naoki Yoshinaga, Daisuke Oba,
Abstract要約: 我々は,大規模言語モデルの知識理解能力を評価するために,知識探索フレームワークBELIEF(-ICL)を導入する。既存のデータセットよりも多様なプロンプトを持つMyriadLAMAを半自動生成します。 PLMの事実理解能力を正確かつ包括的に評価する上で,BELIEFsの有効性を検証した。
参考スコア（独自算出の注目度）: 15.057992220389604
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Large language models (LLMs) face issues in handling factual knowledge, making it vital to evaluate their true ability to understand facts. In this study, we introduce knowledge probing frameworks, BELIEF(-ICL), to evaluate the knowledge understanding ability of not only encoder-based PLMs but also decoder-based PLMs from diverse perspectives. BELIEFs utilize a multi-prompt dataset to evaluate PLM's accuracy, consistency, and reliability in factual knowledge understanding. To provide a more reliable evaluation with BELIEFs, we semi-automatically create MyriadLAMA, which has more diverse prompts than existing datasets. We validate the effectiveness of BELIEFs in correctly and comprehensively evaluating PLM's factual understanding ability through extensive evaluations. We further investigate key factors in learning facts in LLMs, and reveal the limitation of the prompt-based knowledge probing. The dataset is anonymously publicized.
Abstract（参考訳）: 大規模言語モデル(LLM)は事実知識を扱う際に問題に直面し、事実を理解する真の能力を評価することが不可欠である。本研究では,エンドコーダベースPLMだけでなく,デコーダベースPLMの知識理解能力を評価するための知識探索フレームワークBELIEF(-ICL)を紹介する。 BELIEFは、PLMの正確性、一貫性、信頼性を現実の知識理解で評価するために、マルチプロンプトデータセットを使用する。 BELIEFを用いた信頼性の高い評価を実現するために,既存のデータセットよりも多様なプロンプトを持つMyriadLAMAを半自動生成する。本研究では,PLMの事実理解能力の正確かつ包括的評価におけるBELIEFの有効性を,広範囲な評価を通じて検証する。さらに, LLMにおける学習事実の重要な要因について検討し, 素早い知識探索の限界を明らかにする。データセットは匿名で公開されています。

関連論文リスト

KnowMT-Bench: Benchmarking Knowledge-Intensive Long-Form Question Answering in Multi-Turn Dialogues [58.305425399644086]
MT-LFQA(Multi-Turn Long-Form Question Answering)は、知識集約ドメインにおけるLLM(Large Language Models)の重要な応用パラダイムである。 textbfKnowMT-Benchは、知識集約的な分野にわたるLLMのためのMT-LFQAを体系的に評価するために設計された、テキストファーストなベンチマークである。
論文参考訳（メタデータ） (2025-09-26T04:32:29Z)
Pre-training Large Memory Language Models with Internal and External Knowledge [33.69960609226293]
本稿では,内部重みと外部データベースの両方に事実知識を格納する事前学習レシピを備えた,新たな言語モデルであるLarge Memory Language Models (LMLM)を提案する。提案手法は,トレーニング損失から現実の値を戦略的に隠蔽し,モデル重みの記憶に頼るのではなく,対象のルックアップを実行するようにモデルに指示する。
論文参考訳（メタデータ） (2025-05-21T19:26:03Z)
Large language models could be rote learners [13.607635426273607]
大規模言語モデル(LLM)の評価には,MCQ(Multiple-choice Question)ベンチマークが広く使用されている。本研究では,汚染を学習の本質的な側面として再編成し,表層記憶からの真の能力獲得を抑えることを目的とする。本稿では,MCQを新たなトリニティ形式に再構成し,知識評価を維持しつつ記憶を減らし,新たな評価フレームワークであるTrinEvalを提案する。
論文参考訳（メタデータ） (2025-04-11T07:04:44Z)
Large Language Models are Limited in Out-of-Context Knowledge Reasoning [65.72847298578071]
大規模言語モデル (LLMs) は、文脈内推論の実行において広範な知識と強力な能力を持っている。本稿では、複数の知識を組み合わせて新しい知識を推論する、文脈外知識推論(OCKR)という、文脈外推論の重要な側面に焦点を当てる。
論文参考訳（メタデータ） (2024-06-11T15:58:59Z)
Towards Reliable Latent Knowledge Estimation in LLMs: In-Context Learning vs. Prompting Based Factual Knowledge Extraction [15.534647327246239]
大規模言語モデル(LLM)に埋め込まれた潜在知識を推定する手法を提案する。我々は、LLMの文脈内学習能力を活用し、LLMが知識ベースに格納されている事実を知る範囲を推定する。
論文参考訳（メタデータ） (2024-04-19T15:40:39Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
KnowTuning: Knowledge-aware Fine-tuning for Large Language Models [83.5849717262019]
本研究では,LLMの微粒で粗粒な知識認識を改善するための知識認識ファインタニング(KnowTuning)手法を提案する。 KnowTuningは、きめ細かい事実評価の下で、より少ない事実エラー率で多くの事実を生成する。
論文参考訳（メタデータ） (2024-02-17T02:54:32Z)
Learning to Trust Your Feelings: Leveraging Self-awareness in LLMs for Hallucination Mitigation [9.730412606588335]
我々は,Large Language Models (LLMs) の内的知識状態の識別と表現能力を評価する。本稿では,LLMの事実と正直性を高めるために強化学習を活用する,知識フィードバックからの強化学習(RLKF)トレーニングフレームワークを提案する。
論文参考訳（メタデータ） (2024-01-27T16:19:30Z)
Do Large Language Models Know about Facts? [60.501902866946]
大規模言語モデル(LLM)は、最近、さまざまな自然言語処理タスクにおいて、大幅なパフォーマンス改善を推進している。我々は,ベンチマークPinocchioを設計し,LLM内の事実知識の範囲と範囲を評価することを目的とする。 Pinocchioには、異なるソース、タイムライン、ドメイン、リージョン、言語にまたがる20万のさまざまな事実質問が含まれている。
論文参考訳（メタデータ） (2023-10-08T14:26:55Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)
Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文参考訳（メタデータ） (2023-05-15T15:47:09Z)
Context-faithful Prompting for Large Language Models [51.194410884263135]
大言語モデル(LLM)は世界事実に関するパラメトリック知識を符号化する。パラメトリック知識への依存は、文脈的手がかりを見落とし、文脈に敏感なNLPタスクにおいて誤った予測をもたらす可能性がある。我々は, LLMの文脈的忠実度を, 知識の衝突と, 棄権による予測の2つの側面で評価し, 向上する。
論文参考訳（メタデータ） (2023-03-20T17:54:58Z)
KMIR: A Benchmark for Evaluating Knowledge Memorization, Identification and Reasoning Abilities of Language Models [28.82149012250609]
我々はKMIR(Knowledge Memorization, Identification and Reasoning test)というベンチマークを提案する。 KMIRは、一般的な知識、ドメイン固有の知識、常識を含む3種類の知識をカバーし、よく設計された184,348の質問を提供する。 KMIR上での様々な代表的な事前学習言語モデルによる予備実験は、多くの興味深い現象を示す。
論文参考訳（メタデータ） (2022-02-28T03:52:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。