論文の概要: Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs
- arxiv url: http://arxiv.org/abs/2308.09954v1
- Date: Sat, 19 Aug 2023 09:17:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2023-08-22 18:49:35.999798
- Title: Eva-KELLM: A New Benchmark for Evaluating Knowledge Editing of LLMs
- Title(参考訳): Eva-KELLM: LLMの知識編集評価のための新しいベンチマーク
- Authors: Suhang Wu, Minlong Peng, Yue Chen, Jinsong Su, Mingming Sun
- Abstract要約: Eva-KELLMは、大規模言語モデルの知識編集を評価するための新しいベンチマークである。
実験結果から, 生文書を用いた知識編集手法は, 良好な結果を得るには有効ではないことが示唆された。
- 参考スコア(独自算出の注目度): 54.22416829200613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) possess a wealth of knowledge encoded in their
parameters. However, this knowledge may become outdated or unsuitable over
time. As a result, there has been a growing interest in knowledge editing for
LLMs and evaluating its effectiveness. Existing studies primarily focus on
knowledge editing using factual triplets, which not only incur high costs for
collection but also struggle to express complex facts. Furthermore, these
studies are often limited in their evaluation perspectives. In this paper, we
propose Eva-KELLM, a new benchmark for evaluating knowledge editing of LLMs.
This benchmark includes an evaluation framework and a corresponding dataset.
Under our framework, we first ask the LLM to perform knowledge editing using
raw documents, which provides a more convenient and universal approach compared
to using factual triplets. We then evaluate the updated LLM from multiple
perspectives. In addition to assessing the effectiveness of knowledge editing
and the retention of unrelated knowledge from conventional studies, we further
test the LLM's ability in two aspects: 1) Reasoning with the altered knowledge,
aiming for the LLM to genuinely learn the altered knowledge instead of simply
memorizing it. 2) Cross-lingual knowledge transfer, where the LLM updated with
raw documents in one language should be capable of handling queries from
another language. To facilitate further research, we construct and release the
corresponding dataset. Using this benchmark, we investigate the effectiveness
of several commonly-used knowledge editing methods. Experimental results
indicate that the current methods for knowledge editing using raw documents are
not effective in yielding satisfactory results, particularly when it comes to
reasoning with altered knowledge and cross-lingual knowledge transfer.
- Abstract(参考訳): 大規模言語モデル(llm)は、そのパラメータにエンコードされた豊富な知識を持っている。
しかし、この知識は時代遅れあるいは時代とともに不適切になる可能性がある。
その結果,LSMの知識編集や,その有効性評価への関心が高まっている。
既存の研究は主に、コレクションの高コストだけでなく、複雑な事実の表現にも苦労する、事実三重項を用いた知識編集に焦点を当てている。
さらに、これらの研究は、しばしば評価の観点で制限される。
本稿では,LLMの知識編集を評価するための新しいベンチマークであるEva-KELLMを提案する。
このベンチマークには評価フレームワークと対応するデータセットが含まれている。
本フレームワークでは,まず LLM に生文書を用いた知識編集を依頼する。
次に、複数の視点から、更新LDMを評価する。
従来の研究から,知識編集の有効性と無関係な知識の保持を評価することに加えて,llmの能力をさらに2つの側面で検証する。
1) 変化した知識と調和し, LLMが単に記憶するのではなく, 変化した知識を真に学習することを目指す。
2) 言語間の知識伝達では, LLMが更新され, ある言語で生文書が更新された場合, 他言語からのクエリを処理できる。
さらなる研究を容易にするため、対応するデータセットを構築し、リリースする。
本ベンチマークを用いて,一般的な知識編集手法の有効性を検討する。
実験の結果, 生文書を用いた知識編集の手法は, 知識の改変や言語間知識の伝達に関して, 十分な結果を得るには有効ではないことがわかった。
関連論文リスト
- Towards a Principled Evaluation of Knowledge Editors [2.497666465251894]
異なるメトリクスと評価手法と異なる編集バッチサイズを選択することで、知識エディターのランク付けに繋がることを示す。
また、最近リリースされたデータセットに好まれる知識編集のための文字列マッチングに基づく評価手法を手作業で評価し、偽陽性となる傾向を明らかにした。
論文 参考訳(メタデータ) (2025-07-08T12:37:54Z) - Understanding the Limits of Lifelong Knowledge Editing in LLMs [59.12302872055081]
我々は、生涯にわたる知識編集の研究を現実の編集に事実上の規模で橋渡しする。
まず,実世界のウィキデータ編集の大規模ベンチマークであるWikiBigEditを紹介した。
最初の例では、知識編集のための500万以上の質問応答ペアが含まれている。
論文 参考訳(メタデータ) (2025-03-07T18:45:42Z) - Effective LLM Knowledge Learning via Model Generalization [73.16975077770765]
大規模言語モデル(LLM)は、広範囲な世界知識を含む膨大なドキュメントに基づいて訓練されている。
自己回帰的な事前学習を通じて知識がどのように獲得されるかは、まだよく理解されていない。
本稿では,LLM知識学習の理解と改善に焦点をあてる。
論文 参考訳(メタデータ) (2025-03-05T17:56:20Z) - Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject [49.559994791305535]
現在最先端の編集手法は、複数の関連知識を同じ主題に編集する作業で苦労している。
本稿では,textS2textRKE$(Same-Subject Related Knowledge Editing)ベンチマークを紹介する。
実験の結果,ROMやMEMITのような主流の位置情報編集手法だけが「関連する知識の摂動」を示すことがわかった。
論文 参考訳(メタデータ) (2025-02-08T04:47:17Z) - Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models [26.516571783335824]
近年の研究では、知識の歪みや一般的な能力の劣化など、編集後に現れた副作用が特定されている。
本調査では,これらの側面を包括的に研究し,大規模言語モデルにおける知識編集の課題を統一的に考察する。
論文 参考訳(メタデータ) (2024-06-03T15:28:21Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - AKEW: Assessing Knowledge Editing in the Wild [79.96813982502952]
AKEW(Assessing Knowledge Editing in the Wild)は知識編集のための新しい実用的なベンチマークである。
知識更新の編集設定は、構造化された事実、構造化されていない事実としてのテキスト、抽出された三つ組の3つを網羅している。
大規模な実験を通じて、最先端の知識編集手法と実践シナリオの間にかなりのギャップがあることを実証する。
論文 参考訳(メタデータ) (2024-02-29T07:08:34Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。
実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文 参考訳(メタデータ) (2023-10-03T15:10:46Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Coarse-to-Fine Knowledge Selection for Document Grounded Dialogs [11.63334863772068]
マルチドキュメント基盤対話システム(DGDS)は,文書の集合から支援された知識を見出すことで,ユーザの要求に答える。
本稿では,粒度の粗い知識検索と粒度の細かい知識抽出の両方を統一されたフレームワークで最適化することを目的としたRe3Gを提案する。
論文 参考訳(メタデータ) (2023-02-23T08:28:29Z) - Fact-based Text Editing [11.115292572080131]
textscFactEditorは、バッファ、ストリーム、メモリを使用して与えられた事実を参照することで、ドラフトテキストを編集する。
textscFactEditorは、エンコーダ-デコーダアプローチよりも高速に推論を実行する。
論文 参考訳(メタデータ) (2020-07-02T06:50:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。