論文の概要: Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge
- arxiv url: http://arxiv.org/abs/2404.08700v1
- Date: Wed, 10 Apr 2024 18:08:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 19:11:57.989833
- Title: Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge
- Title(参考訳): LLMは時代遅れか? 時間知覚的知識のためのLLMとアライメントアルゴリズムのベンチマーク
- Authors: Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi,
- Abstract要約: 対象の事実質問に対して,最新の真理回答を持つベンチマークを設計・開発する。
Wikidataからリアルタイムに検索した時間感受性知識に基づいて18のオープンソースおよびクローズドソースLCMを評価した。
- 参考スコア(独自算出の注目度): 1.7764955091415962
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We study the appropriateness of Large Language Models (LLMs) as knowledge repositories. We focus on the challenge of maintaining LLMs' factual knowledge up-to-date over time. Motivated by the lack of studies on identifying outdated knowledge within LLMs, we design and develop a dynamic benchmark with up-to-date ground truth answers for each target factual question. We evaluate eighteen open-source and closed-source state-of-the-art LLMs on time-sensitive knowledge retrieved in real-time from Wikidata. We select time-sensitive domain facts in politics, sports, and organizations, and estimate the recency of the information learned by the model during pre-training\fine-tuning. In the second contribution, we evaluate the effectiveness of knowledge editing methods for aligning LLMs with up-to-date factual knowledge and compare their performance with Retrieval Augmented Generation. The dynamic benchmark is designed to be used as-is to assess LLMs's up-to-dateness, as well as to be extended to other domains by sharing the code, the dataset, as well as evaluation and visualization scripts.
- Abstract(参考訳): 本稿では,Large Language Models (LLM) の知識リポジトリとしての妥当性について検討する。
我々は,LLMの事実的知識を経時的に最新に保つという課題に焦点をあてる。
LLMにおける時代遅れの知識の同定に関する研究の欠如により、ターゲットの事実問題に対して、最新の真理解を持つ動的ベンチマークを設計・開発する。
Wikidataからリアルタイムに検索した時間感受性知識に基づいて18のオープンソースおよびクローズドソースLCMを評価した。
我々は、政治、スポーツ、組織において時間に敏感なドメイン事実を選択し、事前学習中のモデルが学習した情報の正確さを推定する。
第2のコントリビューションでは、LLMを最新の事実知識と整合させるための知識編集手法の有効性を評価し、その性能をRetrieval Augmented Generationと比較する。
動的ベンチマークは、LCMの最新の状態の評価や、コード、データセット、評価と視覚化スクリプトを共有することで他のドメインに拡張するために使われるように設計されている。
関連論文リスト
- Evaluating the Factuality of Large Language Models using Large-Scale Knowledge Graphs [30.179703001666173]
大規模言語モデル(LLM)にとって、ファクチュアリティの問題は重要な問題である
我々は,かなり大きなテストデータセットを用いて,LLMの性能を評価するためにGraphEvalを提案する。
テストデータセットは、高価な人的努力なしで1000万以上の事実を持つ大規模な知識グラフから取得される。
論文 参考訳(メタデータ) (2024-04-01T06:01:17Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [104.70586870701922]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新
既存の作業はこの特性を無視し、編集には一般化が欠けている。
実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文 参考訳(メタデータ) (2024-01-15T09:09:14Z) - Systematic Assessment of Factual Knowledge in Large Language Models [48.75961313441549]
本稿では,知識グラフ(KG)を活用して,大規模言語モデル(LLM)の事実知識を評価する枠組みを提案する。
本フレームワークは,所定のKGに格納された事実から質問の集合と期待された回答を自動的に生成し,これらの質問に答える際のLCMの精度を評価する。
論文 参考訳(メタデータ) (2023-10-18T00:20:50Z) - Survey on Factuality in Large Language Models: Knowledge, Retrieval and
Domain-Specificity [61.54815512469125]
本調査は,大規模言語モデル(LLM)における事実性の重要課題に対処する。
LLMが様々な領域にまたがる応用を見出すにつれ、その出力の信頼性と正確性は重要となる。
論文 参考訳(メタデータ) (2023-10-11T14:18:03Z) - Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.672981891304005]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。
データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - LLMMaps -- A Visual Metaphor for Stratified Evaluation of Large Language
Models [13.659853119356507]
大規模言語モデル(LLM)は自然言語処理に革命をもたらし、様々なタスクにおいて印象的な能力を示した。
彼らは幻覚を起こす傾向があり、モデルがその反応の中で誤った情報や誤った情報を公開する。
ユーザによるQ&Aデータセットに対するLLMの性能評価を可能にする新しい可視化手法として,LLMMapsを提案する。
論文 参考訳(メタデータ) (2023-04-02T05:47:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。