論文の概要: Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs
- arxiv url: http://arxiv.org/abs/2308.09954v1
- Date: Sat, 19 Aug 2023 09:17:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:49:35.999798
- Title: Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs
- Title(参考訳): Eva-KELLM: LLMの知識編集評価のための新しいベンチマーク
- Authors: Suhang Wu, Minlong Peng, Yue Chen, Jinsong Su, Mingming Sun
- Abstract要約: Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
- 参考スコア(独自算出の注目度): 54.22416829200613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) possess a wealth of knowledge encoded in their
parameters. However, this knowledge may become outdated or unsuitable over
time. As a result, there has been a growing interest in knowledge editing for
LLMs and evaluating its effectiveness. Existing studies primarily focus on
knowledge editing using factual triplets, which not only incur high costs for
collection but also struggle to express complex facts. Furthermore, these
studies are often limited in their evaluation perspectives. In this paper, we
propose Eva-KELLM, a new benchmark for evaluating knowledge editing of LLMs.
This benchmark includes an evaluation framework and a corresponding dataset.
Under our framework, we first ask the LLM to perform knowledge editing using
raw documents, which provides a more convenient and universal approach compared
to using factual triplets. We then evaluate the updated LLM from multiple
perspectives. In addition to assessing the effectiveness of knowledge editing
and the retention of unrelated knowledge from conventional studies, we further
test the LLM's ability in two aspects: 1) Reasoning with the altered knowledge,
aiming for the LLM to genuinely learn the altered knowledge instead of simply
memorizing it. 2) Cross-lingual knowledge transfer, where the LLM updated with
raw documents in one language should be capable of handling queries from
another language. To facilitate further research, we construct and release the
corresponding dataset. Using this benchmark, we investigate the effectiveness
of several commonly-used knowledge editing methods. Experimental results
indicate that the current methods for knowledge editing using raw documents are
not effective in yielding satisfactory results, particularly when it comes to
reasoning with altered knowledge and cross-lingual knowledge transfer.
- Abstract(参考訳): 大規模言語モデル(llm)は、そのパラメータにエンコードされた豊富な知識を持っている。
しかし、この知識は時代遅れあるいは時代とともに不適切になる可能性がある。
その結果,LSMの知識編集や,その有効性評価への関心が高まっている。
既存の研究は主に、コレクションの高コストだけでなく、複雑な事実の表現にも苦労する、事実三重項を用いた知識編集に焦点を当てている。
さらに、これらの研究は、しばしば評価の観点で制限される。
本稿では,LLMの知識編集を評価するための新しいベンチマークであるEva-KELLMを提案する。
このベンチマークには評価フレームワークと対応するデータセットが含まれている。
本フレームワークでは,まず LLM に生文書を用いた知識編集を依頼する。
次に、複数の視点から、更新LDMを評価する。
従来の研究から,知識編集の有効性と無関係な知識の保持を評価することに加えて,llmの能力をさらに2つの側面で検証する。
1) 変化した知識と調和し, LLMが単に記憶するのではなく, 変化した知識を真に学習することを目指す。
2) 言語間の知識伝達では, LLMが更新され, ある言語で生文書が更新された場合, 他言語からのクエリを処理できる。
さらなる研究を容易にするため、対応するデータセットを構築し、リリースする。
本ベンチマークを用いて,一般的な知識編集手法の有効性を検討する。
実験の結果, 生文書を用いた知識編集の手法は, 知識の改変や言語間知識の伝達に関して, 十分な結果を得るには有効ではないことがわかった。
関連論文リスト
- Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。
実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文 参考訳(メタデータ) (2023-10-03T15:10:46Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。