論文の概要: Benchmarking and Rethinking Knowledge Editing for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.18690v1
- Date: Sat, 24 May 2025 13:32:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:42.594205
- Title: Benchmarking and Rethinking Knowledge Editing for Large Language Models
- Title(参考訳): 大規模言語モデルのための知識編集のベンチマークと再考
- Authors: Guoxiu He, Xin Song, Futing Wang, Aixin Sun,
- Abstract要約: 知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
- 参考スコア(独自算出の注目度): 34.80161437154527
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge editing aims to update the embedded knowledge within Large Language Models (LLMs). However, existing approaches, whether through parameter modification or external memory integration, often suffer from inconsistent evaluation objectives and experimental setups. To address this gap, we conduct a comprehensive benchmarking study. In addition to fact-level datasets, we introduce more complex event-based datasets and general-purpose datasets drawn from other tasks. Our evaluation covers both instruction-tuned and reasoning-oriented LLMs, under a realistic autoregressive inference setting rather than teacher-forced decoding. Beyond single-edit assessments, we also evaluate multi-edit scenarios to better reflect practical demands. We employ four evaluation dimensions, including portability, and compare all recent methods against a simple and straightforward baseline named Selective Contextual Reasoning (SCR). Empirical results reveal that parameter-based editing methods perform poorly under realistic conditions. In contrast, SCR consistently outperforms them across all settings. This study offers new insights into the limitations of current knowledge editing methods and highlights the potential of context-based reasoning as a more robust alternative.
- Abstract(参考訳): 知識編集は、Large Language Models (LLM)内の組み込み知識を更新することを目的としている。
しかし、パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
このギャップに対処するため、我々は総合的なベンチマーク研究を行っている。
ファクトレベルのデータセットに加えて、より複雑なイベントベースのデータセットや、他のタスクから引き出された汎用データセットを導入します。
本評価では,教師力の復号化ではなく,現実的な自己回帰推論設定の下で,命令調整と推論指向のLLMの両方をカバーしている。
単エディットアセスメント以外にも,実践的な要求を反映したマルチエディットシナリオの評価も行なっています。
SCR(Selective Contextual Reasoning)と呼ばれる単純なベースラインに対して,ポータビリティを含む4つの評価次元を使用し,最近の手法を比較した。
実験結果から,パラメータベースの編集手法は現実的な条件下では不十分であることが判明した。
対照的に、SCRはすべての設定でそれらを一貫して上回る。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
関連論文リスト
- OpenUnlearning: Accelerating LLM Unlearning via Unified Benchmarking of Methods and Metrics [101.78963920333342]
我々は,大規模言語モデル(LLM)のアンラーニング手法とメトリクスをベンチマークするための標準フレームワークであるOpenUnlearningを紹介する。
OpenUnlearningは、9つのアンラーニングアルゴリズムと16のさまざまな評価を3つの主要なベンチマークで統合する。
また、多様なアンラーニング手法をベンチマークし、広範囲な評価スイートとの比較分析を行う。
論文 参考訳(メタデータ) (2025-06-14T20:16:37Z) - Towards Efficient and Effective Alignment of Large Language Models [7.853945494882636]
大規模言語モデル(LLM)は多様なタスクにまたがる優れた能力を示すが、それらを効率的かつ効果的に人間の期待に合わせることは重要な課題である。
この論文は、データ収集、トレーニング、評価において新しい方法論を導入することで、LCMアライメントを推し進める。
論文 参考訳(メタデータ) (2025-06-11T02:08:52Z) - ScEdit: Script-based Assessment of Knowledge Editing [13.628279976661934]
知識編集(KE)が注目を集めているが、現在のKEタスクは比較的単純である。
私たちは、新しいスクリプトベースのベンチマーク -- ScEdit (スクリプトベースの知識編集ベンチマーク) を導入しました。
我々は、すべてのKEメソッドが確立されたメトリクスのパフォーマンス低下を示し、テキストレベルのメトリクスに課題に直面していることを観察し、困難な課題を示している。
論文 参考訳(メタデータ) (2025-05-29T09:42:25Z) - Knowledge Updating? No More Model Editing! Just Selective Contextual Reasoning [38.018263569983226]
信頼性,一般化,局所性,可搬性という4次元の10種類のモデル編集手法の評価を行った。
次に、知識更新のためのSCR(Selective Contextual Reasoning)という簡単な手法を提案する。
論文 参考訳(メタデータ) (2025-03-07T08:04:25Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。
本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - StructTest: Benchmarking LLMs' Reasoning through Compositional Structured Outputs [78.84060166851805]
StructTestは、大規模な言語モデル(LLM)を合成命令に従って構造化出力を生成する能力に基づいて評価する、新しいベンチマークである。
評価はルールベースの評価器を用いて決定的に行われ、新しいタスクやデータセットに容易に拡張できる。
StructTestは、Deepseek-V3/R1やGPT-4oといったトップパフォーマンスモデルでも、依然として難しいままです。
論文 参考訳(メタデータ) (2024-12-23T22:08:40Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - CELA: Cost-Efficient Language Model Alignment for CTR Prediction [70.65910069412944]
CTR(Click-Through Rate)予測は、レコメンダシステムにおいて最重要位置を占める。
最近の取り組みは、プレトレーニング言語モデル(PLM)を統合することでこれらの課題を緩和しようとしている。
CTR予測のためのtextbfCost-textbfEfficient textbfLanguage Model textbfAlignment (textbfCELA)を提案する。
論文 参考訳(メタデータ) (2024-05-17T07:43:25Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。