論文の概要: Towards a Principled Evaluation of Knowledge Editors
- arxiv url: http://arxiv.org/abs/2507.05937v1
- Date: Tue, 08 Jul 2025 12:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:38.043572
- Title: Towards a Principled Evaluation of Knowledge Editors
- Title(参考訳): 知識エディタの原理的評価に向けて
- Authors: Sebastian Pohl, Max Ploner, Alan Akbik,
- Abstract要約: 異なるメトリクスと評価手法と異なる編集バッチサイズを選択することで、知識エディターのランク付けに繋がることを示す。
また、最近リリースされたデータセットに好まれる知識編集のための文字列マッチングに基づく評価手法を手作業で評価し、偽陽性となる傾向を明らかにした。
- 参考スコア(独自算出の注目度): 2.497666465251894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing has been gaining increasing attention over the past few years. For Knowledge Editing in particular, more challenging evaluation datasets have recently been released. These datasets use different methodologies to score the success of editors. Yet, it remains under-explored how robust these methodologies are and whether they unfairly favor some editors. Moreover, the disruptive impact of these editors on overall model capabilities remains a constant blind spot. We address both of these problems and show that choosing different metrics and evaluation methodologies as well as different edit batch sizes can lead to a different ranking of knowledge editors. Crucially we demonstrate this effect also on general language understanding tasks evaluated alongside the knowledge editing tasks. Further we include a manual assessment of the string matching based evaluation method for knowledge editing that is favored by recently released datasets, revealing a tendency to produce false positive matches.
- Abstract(参考訳): モデル編集はここ数年で注目を集めている。
特に知識編集に関しては、より困難な評価データセットが最近リリースされた。
これらのデータセットは、編集者の成功を評価するために異なる方法論を使用する。
しかし、これらの方法論がいかに頑丈か、また彼らが不公平に一部の編集者を好んでいるかは未解明のままである。
さらに、これらのエディタの全体的なモデル機能に対する破壊的な影響は、依然として常に盲点である。
これら2つの問題に対処し、異なるメトリクスと評価手法を選択することと、異なる編集バッチサイズを選択すれば、異なる知識エディターのランク付けに繋がることを示す。
重要なことは、この効果が知識編集タスクとともに評価された汎用言語理解タスクにも影響を及ぼす。
さらに、最近リリースされたデータセットが好む知識編集のための文字列マッチングに基づく評価手法を手作業で評価し、偽陽性となる傾向を明らかにした。
関連論文リスト
- The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
我々は、広く使われている質問応答(QA)データセットに対応する新しいベンチマークであるQAEditと、タスクに依存しない評価フレームワークであるWILDを紹介する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりもかなり悪い結果が得られた。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject [49.559994791305535]
現在最先端の編集手法は、複数の関連知識を同じ主題に編集する作業で苦労している。
本稿では,textS2textRKE$(Same-Subject Related Knowledge Editing)ベンチマークを紹介する。
実験の結果,ROMやMEMITのような主流の位置情報編集手法だけが「関連する知識の摂動」を示すことがわかった。
論文 参考訳(メタデータ) (2025-02-08T04:47:17Z) - Uncovering Overfitting in Large Language Model Editing [35.55260822503773]
編集対象に不均等に高い確率を割り当てる編集オーバーフィット現象を同定し,検討する。
本稿では,多段階推論制約モジュールを導入し,新しい知識をリコールする際のモデルをガイドするLearning the Inference (LTI)を提案する。
論文 参考訳(メタデータ) (2024-10-10T11:09:00Z) - Editing the Mind of Giants: An In-Depth Exploration of Pitfalls of Knowledge Editing in Large Language Models [26.516571783335824]
近年の研究では、知識の歪みや一般的な能力の劣化など、編集後に現れた副作用が特定されている。
本調査では,これらの側面を包括的に研究し,大規模言語モデルにおける知識編集の課題を統一的に考察する。
論文 参考訳(メタデータ) (2024-06-03T15:28:21Z) - Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks [36.292901021210575]
ReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入する。
我々は既存の知識編集技術を徹底的に分析し、入力強化、微調整、位置と編集を行う。
全てのモデル編集手法は、特に特定の推論スキームにおいて、このデータセットで顕著に低い性能を示す。
論文 参考訳(メタデータ) (2024-01-31T04:12:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。