Fugu-MT 論文翻訳(概要): DyKnow:Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs

論文の概要: DyKnow:Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs

arxiv url: http://arxiv.org/abs/2404.08700v2
Date: Wed, 12 Jun 2024 13:44:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-13 22:24:31.776458
Title: DyKnow:Dynamically Verifying Time-Sensitive Factual Knowledge in LLMs
Title（参考訳）: DyKnow:LLMにおける時間知覚的実測知識の動的検証
Authors: Seyed Mahed Mousavi, Simone Alghisi, Giuseppe Riccardi,
Abstract要約: 本稿では,LLMにおける知識とWikidataに対する時間依存性を動的に評価する手法を提案する。筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。以上の結果から,1) 時代遅れは,最先端のLLMにおいて重要な問題であり,2) 質問プロンプトのわずかなバリエーションで示唆された場合のLCMの出力不整合性,3) 最先端の知識編集アルゴリズムの性能は極めて限られていることが示唆された。
参考スコア（独自算出の注目度）: 1.7764955091415962
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: LLMs acquire knowledge from massive data snapshots collected at different timestamps. Their knowledge is then commonly evaluated using static benchmarks. However, factual knowledge is generally subject to time-sensitive changes, and static benchmarks cannot address those cases. We present an approach to dynamically evaluate the knowledge in LLMs and their time-sensitiveness against Wikidata, a publicly available up-to-date knowledge graph. We evaluate the time-sensitive knowledge in twenty-four private and open-source LLMs, as well as the effectiveness of four editing methods in updating the outdated facts. Our results show that 1) outdatedness is a critical problem across state-of-the-art LLMs; 2) LLMs output inconsistent answers when prompted with slight variations of the question prompt; and 3) the performance of the state-of-the-art knowledge editing algorithms is very limited, as they can not reduce the cases of outdatedness and output inconsistency.
Abstract（参考訳）: LLMは、異なるタイムスタンプで収集された大量のデータスナップショットから知識を取得する。その知識は静的ベンチマークを用いて一般に評価される。しかし、事実知識は一般的に時間に敏感な変化を伴い、静的ベンチマークはこれらのケースに対処できない。本稿では,LLMにおける知識の動的評価と,最新の知識グラフであるWikidataに対する時間依存性について述べる。筆者らは,24の私的およびオープンソース LLM における時間依存的知識と,古い事実を更新するための4つの編集方法の有効性を評価する。私たちの結果は 1) 時代遅れは、最先端のLDMにおいて重要な問題である。 2 LLMは、質問プロンプトのわずかなバリエーションを伴って、無矛盾な回答を出力する。 3) 最先端知識編集アルゴリズムの性能は, 時代遅れや出力不整合を低減できないため, 極めて制限されている。

関連論文リスト

When Facts Change: Probing LLMs on Evolving Knowledge with evolveQA [11.701030951844222]
時間的に進化する知識に基づいてLLMを評価するために特別に設計されたベンチマークであるEvolutionQAを紹介する。本フレームワークは,自然発生の知識の進化を識別し,LLMの知識の切り離しに合わせたゴールド回答の質問を生成する。静的知識質問と比較して,進化QAでは最大31%の大幅な性能低下を示した。
論文参考訳（メタデータ） (2025-10-22T02:12:32Z)
Question Answering under Temporal Conflict: Evaluating and Organizing Evolving Knowledge with LLMs [0.0]
大規模言語モデル(LLM)は、質問応答と推論において顕著な能力を示す。この知識を更新するには、通常、高価で不安定な再トレーニングが必要です。本稿では、ソース文書から構造化された外部メモリを段階的に構築する軽量なエージェント型フレームワークを提案する。
論文参考訳（メタデータ） (2025-06-08T20:13:33Z)
LLMs as Repositories of Factual Knowledge: Limitations and Solutions [1.7764955091415962]
本研究では,事実知識のリポジトリとしてのLarge Language Models(LLMs)の妥当性について検討する。時間に敏感な事実質問に応答する際の信頼性を評価する。本稿では,モデルの性能向上を図るため,ENAF(ENtity-Aware Fine-tuning)を提案する。
論文参考訳（メタデータ） (2025-01-22T10:16:53Z)
ChroKnowledge: Unveiling Chronological Knowledge of Language Models in Multiple Domains [19.428141279030527]
ChroKnowBenchは、時系列的に蓄積された知識を評価するために設計されたベンチマークデータセットである。 ChroKnowledgeは、LLMの非パラメトリック時系列知識を評価するための新しいサンプリングベースのフレームワークである。 ChroKnowPrompt(クロクノウプロンプト)は、周囲の時間帯をステップバイステップで移動することで、時系列の知識を引き出すための奥行きである。
論文参考訳（メタデータ） (2024-10-13T15:08:49Z)
Time Sensitive Knowledge Editing through Efficient Finetuning [35.79991957163508]
大きな言語モデル(LLM)は、様々なタスクにおいて印象的な能力を示し、多くのドメインに変革をもたらす。 LLMの知識を最新に保つことは、事前トレーニングが完了するまで、依然として課題である。既存の位置と編集の知識編集(KE)手法には2つの制限がある。
論文参考訳（メタデータ） (2024-06-06T20:41:36Z)
Prompting Large Language Models with Knowledge Graphs for Question Answering Involving Long-tail Facts [50.06633829833144]
大規模言語モデル(LLM)は、様々なNLPタスクを実行するのに効果的であるが、広範囲の現実世界の知識を必要とするタスクを扱うのに苦労する。我々は,関連する疑問に答えるために,長期的事実の知識を必要とするベンチマークを提案する。実験の結果,LLMだけでこれらの疑問に答えるのに苦労していることが明らかとなった。
論文参考訳（メタデータ） (2024-05-10T15:10:20Z)
Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文参考訳（メタデータ） (2024-03-26T06:57:23Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
See the Unseen: Better Context-Consistent Knowledge-Editing by Noises [73.54237379082795]
知識編集が大規模言語モデル(LLM)の知識を更新既存の作業はこの特性を無視し、編集には一般化が欠けている。実験により、異なる文脈がLLMに与える影響は、同じ知識を思い出す際にガウス的な分布に従うことが判明した。
論文参考訳（メタデータ） (2024-01-15T09:09:14Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Temporal Knowledge Question Answering via Abstract Reasoning Induction [32.08799860090592]
本研究では,Large Language Models(LLMs)における時間的知識推論の高度化という課題に対処する。本稿では,時間的推論を知識非依存と知識に基づく2つのフェーズに分割する抽象推論誘導(ARI)フレームワークを提案する。提案手法は,2つの時間的QAデータセットに対して29.7%と9.27%の相対的な向上を達成している。
論文参考訳（メタデータ） (2023-11-15T17:46:39Z)
RECALL: A Benchmark for LLMs Robustness against External Counterfactual Knowledge [69.79676144482792]
本研究の目的は,LLMが外部知識から信頼できる情報を識別する能力を評価することである。本ベンチマークは,質問応答とテキスト生成という2つのタスクから構成される。
論文参考訳（メタデータ） (2023-11-14T13:24:19Z)
Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文参考訳（メタデータ） (2023-10-03T15:10:46Z)
Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs [54.22416829200613]
Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
論文参考訳（メタデータ） (2023-08-19T09:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。