論文の概要: Benchmarking and Rethinking Knowledge Editing for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18690v1
- Date: Sat, 24 May 2025 13:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.594205
- Title: Benchmarking and Rethinking Knowledge Editing for Large Language Models
- Title(参考訳): 大規模言語モデルのための知識編集のベンチマークと再考
- Authors: Guoxiu He, Xin Song, Futing Wang, Aixin Sun,
- Abstract要約: 知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
- 参考スコア(独自算出の注目度): 34.80161437154527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge editing aims to update the embedded knowledge within Large Language Models (LLMs). However, existing approaches, whether through parameter modification or external memory integration, often suffer from inconsistent evaluation objectives and experimental setups. To address this gap, we conduct a comprehensive benchmarking study. In addition to fact-level datasets, we introduce more complex event-based datasets and general-purpose datasets drawn from other tasks. Our evaluation covers both instruction-tuned and reasoning-oriented LLMs, under a realistic autoregressive inference setting rather than teacher-forced decoding. Beyond single-edit assessments, we also evaluate multi-edit scenarios to better reflect practical demands. We employ four evaluation dimensions, including portability, and compare all recent methods against a simple and straightforward baseline named Selective Contextual Reasoning (SCR). Empirical results reveal that parameter-based editing methods perform poorly under realistic conditions. In contrast, SCR consistently outperforms them across all settings. This study offers new insights into the limitations of current knowledge editing methods and highlights the potential of context-based reasoning as a more robust alternative.
- Abstract(参考訳): 知識編集は、Large Language Models (LLM)内の組み込み知識を更新することを目的としている。
しかし、パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
このギャップに対処するため、我々は総合的なベンチマーク研究を行っている。
ファクトレベルのデータセットに加えて、より複雑なイベントベースのデータセットや、他のタスクから引き出された汎用データセットを導入します。
本評価では,教師力の復号化ではなく,現実的な自己回帰推論設定の下で,命令調整と推論指向のLLMの両方をカバーしている。
単エディットアセスメント以外にも,実践的な要求を反映したマルチエディットシナリオの評価も行なっています。
SCR(Selective Contextual Reasoning)と呼ばれる単純なベースラインに対して,ポータビリティを含む4つの評価次元を使用し,最近の手法を比較した。
実験結果から,パラメータベースの編集手法は現実的な条件下では不十分であることが判明した。
対照的に、SCRはすべての設定でそれらを一貫して上回る。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
関連論文リスト
- Knowledge Updating? No More Model Editing! Just Selective Contextual Reasoning [38.018263569983226]
信頼性,一般化,局所性,可搬性という4次元の10種類のモデル編集手法の評価を行った。
次に、知識更新のためのSCR(Selective Contextual Reasoning)という簡単な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:04:25Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。
本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。