論文の概要: ScEdit: Script-based Assessment of Knowledge Editing
- arxiv url: http://arxiv.org/abs/2505.23291v1
- Date: Thu, 29 May 2025 09:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.794456
- Title: ScEdit: Script-based Assessment of Knowledge Editing
- Title(参考訳): ScEdit: スクリプトによる知識編集の評価
- Authors: Xinye Li, Zunwen Zheng, Qian Zhang, Dekai Zhuang, Jiabao Kang, Liyan Xu, Qingbin Liu, Xi Chen, Zhiying Tu, Dianhui Chu, Dianbo Sui,
- Abstract要約: 知識編集(KE)が注目を集めているが、現在のKEタスクは比較的単純である。
私たちは、新しいスクリプトベースのベンチマーク -- ScEdit (スクリプトベースの知識編集ベンチマーク) を導入しました。
我々は、すべてのKEメソッドが確立されたメトリクスのパフォーマンス低下を示し、テキストレベルのメトリクスに課題に直面していることを観察し、困難な課題を示している。
- 参考スコア(独自算出の注目度): 13.628279976661934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Editing (KE) has gained increasing attention, yet current KE tasks remain relatively simple. Under current evaluation frameworks, many editing methods achieve exceptionally high scores, sometimes nearing perfection. However, few studies integrate KE into real-world application scenarios (e.g., recent interest in LLM-as-agent). To support our analysis, we introduce a novel script-based benchmark -- ScEdit (Script-based Knowledge Editing Benchmark) -- which encompasses both counterfactual and temporal edits. We integrate token-level and text-level evaluation methods, comprehensively analyzing existing KE techniques. The benchmark extends traditional fact-based ("What"-type question) evaluation to action-based ("How"-type question) evaluation. We observe that all KE methods exhibit a drop in performance on established metrics and face challenges on text-level metrics, indicating a challenging task. Our benchmark is available at https://github.com/asdfo123/ScEdit.
- Abstract(参考訳): 知識編集(KE)が注目を集めているが、現在のKEタスクは比較的単純である。
現在の評価フレームワークでは、多くの編集手法が極めて高いスコアを獲得し、時には完璧に近づいた。
しかし、KEを現実世界のアプリケーションシナリオに統合する研究はほとんどない(例えば、最近のLSM-as-agentへの関心)。
分析をサポートするために、我々は新しいスクリプトベースのベンチマークであるScEdit(スクリプトベースの知識編集ベンチマーク)を導入しました。
我々はトークンレベルとテキストレベルの評価手法を統合し、既存のKE手法を包括的に分析する。
このベンチマークは、従来のファクトベース (What"-type question) 評価をアクションベース (How"-type question) 評価に拡張する。
我々は、すべてのKEメソッドが確立されたメトリクスのパフォーマンス低下を示し、テキストレベルのメトリクスに課題に直面していることを観察し、困難な課題を示している。
私たちのベンチマークはhttps://github.com/asdfo123/ScEditで公開されています。
関連論文リスト
- Context Robust Knowledge Editing for Language Models [10.634048842551662]
知識編集手法のコンテキストロバスト性を評価するためのベンチマークであるCHEDを開発した。
CHEDの評価は、先行するコンテキストが存在するときにしばしば失敗することを示している。
我々はコンテキストの堅牢性を高めるために設計されたKE手法であるCoREを紹介する。
論文 参考訳(メタデータ) (2025-05-29T03:11:53Z) - Benchmarking and Rethinking Knowledge Editing for Large Language Models [34.80161437154527]
知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
論文 参考訳(メタデータ) (2025-05-24T13:32:03Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。
本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-22T09:35:42Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。