Fugu-MT 論文翻訳(概要): Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge

論文の概要: Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge

arxiv url: http://arxiv.org/abs/2404.08700v1
Date: Wed, 10 Apr 2024 18:08:59 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-16 19:11:57.989833
Title: Is Your LLM Outdated? Benchmarking LLMs & Alignment Algorithms for Time-Sensitive Knowledge
Title（参考訳）: LLMは時代遅れか? 時間知覚的知識のためのLLMとアライメントアルゴリズムのベンチマーク
Authors: Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi,
Abstract要約: 対象の事実質問に対して,最新の真理回答を持つベンチマークを設計・開発する。 Wikidataからリアルタイムに検索した時間感受性知識に基づいて18のオープンソースおよびクローズドソースLCMを評価した。
参考スコア（独自算出の注目度）: 1.7764955091415962
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We study the appropriateness of Large Language Models (LLMs) as knowledge repositories. We focus on the challenge of maintaining LLMs' factual knowledge up-to-date over time. Motivated by the lack of studies on identifying outdated knowledge within LLMs, we design and develop a dynamic benchmark with up-to-date ground truth answers for each target factual question. We evaluate eighteen open-source and closed-source state-of-the-art LLMs on time-sensitive knowledge retrieved in real-time from Wikidata. We select time-sensitive domain facts in politics, sports, and organizations, and estimate the recency of the information learned by the model during pre-training\fine-tuning. In the second contribution, we evaluate the effectiveness of knowledge editing methods for aligning LLMs with up-to-date factual knowledge and compare their performance with Retrieval Augmented Generation. The dynamic benchmark is designed to be used as-is to assess LLMs's up-to-dateness, as well as to be extended to other domains by sharing the code, the dataset, as well as evaluation and visualization scripts.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) の知識リポジトリとしての妥当性について検討する。我々は,LLMの事実的知識を経時的に最新に保つという課題に焦点をあてる。 LLMにおける時代遅れの知識の同定に関する研究の欠如により、ターゲットの事実問題に対して、最新の真理解を持つ動的ベンチマークを設計・開発する。 Wikidataからリアルタイムに検索した時間感受性知識に基づいて18のオープンソースおよびクローズドソースLCMを評価した。我々は、政治、スポーツ、組織において時間に敏感なドメイン事実を選択し、事前学習中のモデルが学習した情報の正確さを推定する。第2のコントリビューションでは、LLMを最新の事実知識と整合させるための知識編集手法の有効性を評価し、その性能をRetrieval Augmented Generationと比較する。動的ベンチマークは、LCMの最新の状態の評価や、コード、データセット、評価と視覚化スクリプトを共有することで他のドメインに拡張するために使われるように設計されている。

関連論文リスト

Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs [0.0]
大規模言語モデル(LLM)は、質問応答と推論において顕著な能力を示す。この知識を更新するには、通常、高価で不安定な再トレーニングが必要です。本稿では、ソース文書から構造化された外部メモリを段階的に構築する軽量なエージェント型フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T20:13:33Z)
LLMs as Repositories of Factual Knowledge: Limitations and Solutions [1.7764955091415962]
本研究では,事実知識のリポジトリとしてのLarge Language Models(LLMs)の妥当性について検討する。時間に敏感な事実質問に応答する際の信頼性を評価する。本稿では,モデルの性能向上を図るため,ENAF(ENtity-Aware Fine-tuning)を提案する。
論文参考訳（メタデータ） (2025-01-22T10:16:53Z)
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。 ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。 ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文参考訳（メタデータ） (2024-10-13T15:08:49Z)
Time Sensitive Knowledge Editing through Efficient Finetuning [35.79991957163508]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。 LLMの知識を最新に保つことは、事前トレーニングが完了するまで、依然として課題である。既存の位置と編集の知識編集(KE)手法には2つの制限がある。
論文参考訳（メタデータ） (2024-06-06T20:41:36Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文参考訳（メタデータ） (2023-11-15T17:46:39Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文参考訳（メタデータ） (2023-10-03T15:10:46Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。