論文の概要: Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
- arxiv url: http://arxiv.org/abs/2505.12306v1
- Date: Sun, 18 May 2025 08:39:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.154763
- Title: Bidirectional LMs are Better Knowledge Memorizers? A Benchmark for Real-world Knowledge Injection
- Title(参考訳): 双方向LMはより良い知識記憶器か? : 実世界の知識注入のためのベンチマーク
- Authors: Yuwei Zhang, Wenhao Yu, Shangbin Feng, Yifan Zhu, Letian Peng, Jayanth Srinivasa, Gaowen Liu, Jingbo Shang,
- Abstract要約: 人間の介入を必要とせず、時間とともに継続的に進化する新しい、現実的で大規模な知識注入ベンチマークを導入する。
WikiDYKはウィキペディアの「Did You Know...」エントリから最近追加された人文的な事実を活用する。
WikiDYKには12,290の事実と77,180の質問が含まれている。
- 参考スコア(独自算出の注目度): 48.188285483378664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite significant advances in large language models (LLMs), their knowledge memorization capabilities remain underexplored, due to the lack of standardized and high-quality test ground. In this paper, we introduce a novel, real-world and large-scale knowledge injection benchmark that evolves continuously over time without requiring human intervention. Specifically, we propose WikiDYK, which leverages recently-added and human-written facts from Wikipedia's "Did You Know..." entries. These entries are carefully selected by expert Wikipedia editors based on criteria such as verifiability and clarity. Each entry is converted into multiple question-answer pairs spanning diverse task formats from easy cloze prompts to complex multi-hop questions. WikiDYK contains 12,290 facts and 77,180 questions, which is also seamlessly extensible with future updates from Wikipedia editors. Extensive experiments using continued pre-training reveal a surprising insight: despite their prevalence in modern LLMs, Causal Language Models (CLMs) demonstrate significantly weaker knowledge memorization capabilities compared to Bidirectional Language Models (BiLMs), exhibiting a 23% lower accuracy in terms of reliability. To compensate for the smaller scales of current BiLMs, we introduce a modular collaborative framework utilizing ensembles of BiLMs as external knowledge repositories to integrate with LLMs. Experiment shows that our framework further improves the reliability accuracy by up to 29.1%.
- Abstract(参考訳): 大規模言語モデル(LLM)の大幅な進歩にもかかわらず、その知識記憶能力は、標準化され高品質な試験基盤が欠如しているため、まだ探索が進んでいない。
本稿では,人間の介入を必要とせず,時間とともに継続的に進化する新しい,実世界および大規模知識注入ベンチマークを提案する。
具体的には、ウィキペディアの「Did You Know...」エントリから最近追加された人文的な事実を活用するWikiDYKを提案する。
これらのエントリは、検証可能性や明確性といった基準に基づいて、専門家のウィキペディア編集者によって慎重に選択される。
各エントリは、簡単なクローズプロンプトから複雑なマルチホップ質問まで、多様なタスクフォーマットにまたがる複数の質問応答ペアに変換される。
WikiDYKには12,290の事実と77,180の質問が含まれている。
現代のLLMの流行にもかかわらず、因果言語モデル(CLM)は双方向言語モデル(BiLM)に比べて知識記憶能力が著しく弱く、信頼性の点で23%低いことを示している。
現在のBiLMの小規模化を補うために,外部知識リポジトリとしてBiLMのアンサンブルを利用するモジュール型協調フレームワークを導入する。
実験の結果,信頼性は最大29.1%向上した。
関連論文リスト
- Self-Memory Alignment: Mitigating Factual Hallucinations with Generalized Improvement [37.59724553583446]
大きな言語モデル(LLM)は、しばしば客観的な事実と反応を一致させるのに苦労し、結果として幻覚をもたらす。
自己記憶アライメント(SMA)を導入し、正確かつ単純な事実質問に対する自己生成応答のモデルを微調整する。
大規模な実験により、SMAはLLMの全体的な性能を著しく改善し、現実性に関する様々なベンチマークを一貫して強化し、有用性や包括的スキルも向上した。
論文 参考訳(メタデータ) (2025-02-26T13:34:52Z) - Are LLMs Really Not Knowledgable? Mining the Submerged Knowledge in LLMs' Memory [15.986679553468989]
大規模言語モデル(LLM)は潜在的な知識基盤として有望であることを示している。
LLMは質問応答タスクに苦しむことが多く、幻覚を起こす傾向がある。
我々は,検出されたが表現されていない知識を活用することで,解答精度を向上させる手法であるSkipUnsureを開発した。
論文 参考訳(メタデータ) (2024-12-30T10:29:18Z) - EvoWiki: Evaluating LLMs on Evolving Knowledge [72.92365627254063]
EvoWiki(エボウィキ)は、知識の進化を反映した進化的データセットである。
我々の結果は、現在のモデルは進化した知識に苦しむことが多く、時代遅れや誤った反応を頻繁に与えていることを示している。
EvoWikiは、大規模言語モデルの知識進化能力に関する将来の研究を進めるための堅牢なベンチマークを提供する。
論文 参考訳(メタデータ) (2024-12-18T08:04:57Z) - Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。
我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。
実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文 参考訳(メタデータ) (2024-05-10T15:10:20Z) - Supervised Knowledge Makes Large Language Models Better In-context Learners [94.89301696512776]
大規模言語モデル(LLM)は、素早い工学を通して、文脈内学習能力の出現を示す。
自然言語理解と質問応答におけるLLMの一般化性と事実性の向上という課題は、まだ未解決のままである。
本研究では, LLM の信頼性を高める枠組みを提案する。1) 分布外データの一般化,2) 差別モデルによる LLM のメリットの解明,3) 生成タスクにおける幻覚の最小化。
論文 参考訳(メタデータ) (2023-12-26T07:24:46Z) - FreshLLMs: Refreshing Large Language Models with Search Engine
Augmentation [92.43001160060376]
本研究では,現在の世界知識をテストする質問に答える文脈において,大規模言語モデル(LLM)の事実性について検討する。
多様な質問や回答のタイプを含む新しい動的QAベンチマークであるFreshQAを紹介する。
我々は,2モード評価法により,閉じたLLMとオープンソースのLLMの多種多様な配列をベンチマークし,その正しさと幻覚の両面を計測する。
これらの結果に触発されたFreshPromptは、FreshQA上でのLLMの性能を大幅に向上させる単純な数ショットプロンプトである。
論文 参考訳(メタデータ) (2023-10-05T00:04:12Z) - Knowledge Card: Filling LLMs' Knowledge Gaps with Plug-in Specialized Language Models [46.079902719883414]
我々は,新しい事実と関連する知識を汎用言語モデルにプラグインするモジュール型フレームワークであるKnowledge Cardを提案する。
まず、特定のドメインやソースからコーパスで訓練された特殊な言語モデルであるナレッジカードを紹介します。
次に,知識カードが生成した文書中の情報を動的に選択・保持する3つのコンテンツセレクタを提案する。
論文 参考訳(メタデータ) (2023-05-17T05:25:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。