論文の概要: ScEdit: Script-based Assessment of Knowledge Editing
- arxiv url: http://arxiv.org/abs/2505.23291v1
- Date: Thu, 29 May 2025 09:42:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:07.794456
- Title: ScEdit: Script-based Assessment of Knowledge Editing
- Title(参考訳): ScEdit: スクリプトによる知識編集の評価
- Authors: Xinye Li, Zunwen Zheng, Qian Zhang, Dekai Zhuang, Jiabao Kang, Liyan Xu, Qingbin Liu, Xi Chen, Zhiying Tu, Dianhui Chu, Dianbo Sui,
- Abstract要約: 知識編集(KE)が注目を集めているが、現在のKEタスクは比較的単純である。
私たちは、新しいスクリプトベースのベンチマーク -- ScEdit (スクリプトベースの知識編集ベンチマーク) を導入しました。
我々は、すべてのKEメソッドが確立されたメトリクスのパフォーマンス低下を示し、テキストレベルのメトリクスに課題に直面していることを観察し、困難な課題を示している。
- 参考スコア(独自算出の注目度): 13.628279976661934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge Editing (KE) has gained increasing attention, yet current KE tasks remain relatively simple. Under current evaluation frameworks, many editing methods achieve exceptionally high scores, sometimes nearing perfection. However, few studies integrate KE into real-world application scenarios (e.g., recent interest in LLM-as-agent). To support our analysis, we introduce a novel script-based benchmark -- ScEdit (Script-based Knowledge Editing Benchmark) -- which encompasses both counterfactual and temporal edits. We integrate token-level and text-level evaluation methods, comprehensively analyzing existing KE techniques. The benchmark extends traditional fact-based ("What"-type question) evaluation to action-based ("How"-type question) evaluation. We observe that all KE methods exhibit a drop in performance on established metrics and face challenges on text-level metrics, indicating a challenging task. Our benchmark is available at https://github.com/asdfo123/ScEdit.
- Abstract(参考訳): 知識編集(KE)が注目を集めているが、現在のKEタスクは比較的単純である。
現在の評価フレームワークでは、多くの編集手法が極めて高いスコアを獲得し、時には完璧に近づいた。
しかし、KEを現実世界のアプリケーションシナリオに統合する研究はほとんどない(例えば、最近のLSM-as-agentへの関心)。
分析をサポートするために、我々は新しいスクリプトベースのベンチマークであるScEdit(スクリプトベースの知識編集ベンチマーク)を導入しました。
我々はトークンレベルとテキストレベルの評価手法を統合し、既存のKE手法を包括的に分析する。
このベンチマークは、従来のファクトベース (What"-type question) 評価をアクションベース (How"-type question) 評価に拡張する。
我々は、すべてのKEメソッドが確立されたメトリクスのパフォーマンス低下を示し、テキストレベルのメトリクスに課題に直面していることを観察し、困難な課題を示している。
私たちのベンチマークはhttps://github.com/asdfo123/ScEditで公開されています。
関連論文リスト
- Context Robust Knowledge Editing for Language Models [10.634048842551662]
知識編集手法のコンテキストロバスト性を評価するためのベンチマークであるCHEDを開発した。
CHEDの評価は、先行するコンテキストが存在するときにしばしば失敗することを示している。
我々はコンテキストの堅牢性を高めるために設計されたKE手法であるCoREを紹介する。
論文 参考訳(メタデータ) (2025-05-29T03:11:53Z) - Benchmarking and Rethinking Knowledge Editing for Large Language Models [34.80161437154527]
知識編集は,Large Language Models (LLM)内での組み込み知識の更新を目的としている。
パラメータ修正や外部メモリ統合といった既存のアプローチは、しばしば不整合評価目標や実験的な設定に悩まされる。
本研究は、現在の知識編集手法の限界に対する新たな洞察を提供し、より堅牢な代替手段としてコンテキストベースの推論の可能性を強調する。
論文 参考訳(メタデータ) (2025-05-24T13:32:03Z) - The Mirage of Model Editing: Revisiting Evaluation in the Wild [70.17413507444704]
質問応答アプリケーションにおけるモデル編集の有効性について検討する。
単一の編集実験により、現在行われている編集手法は、以前報告したよりも大幅に悪化していることが示された。
本分析は,既存のモデル編集手法の現実的適用性と評価手法の両面について,基礎的な再検討を行うものである。
論文 参考訳(メタデータ) (2025-02-16T15:57:55Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - ETHIC: Evaluating Large Language Models on Long-Context Tasks with High Information Coverage [21.036912648701264]
本稿では,クエリの応答に必要な入力コンテキストの割合を定量化する,情報カバレッジ(IC)と呼ばれる新しい指標を提案する。
ETHICは、LLMがコンテキスト全体を活用する能力を評価するために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2024-10-22T09:35:42Z) - Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。
最新のUQベースラインの集合を実装した新しいベンチマークを導入する。
我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文 参考訳(メタデータ) (2024-06-21T20:06:31Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - DocTER: Evaluating Document-based Knowledge Editing [53.14000724633775]
本稿では,手作業で3つの文書をラベル付けするのではなく,簡単にアクセスできる文書を用いた知識編集について検討する。
総合的な4つのパースペクティブ評価: 編集成功、局所性、推論、言語間移動。
一般的な知識編集手法の実験は、文書による編集が三重項を使用するよりもはるかに大きな課題を示すことを示した。
論文 参考訳(メタデータ) (2023-08-19T09:17:19Z) - EditEval: An Instruction-Based Benchmark for Text Improvements [73.5918084416016]
編集機能の自動評価のためのインストラクションベース、ベンチマーク、評価スイートであるEditEvalを提示する。
InstructGPTとPEERが最良であることを示す事前学習モデルをいくつか評価するが,ほとんどのベースラインは教師付きSOTA以下である。
我々の分析は、タスクの編集によく使われるメトリクスが必ずしも相関しているとは限らないことを示し、最高の性能を持つプロンプトに対する最適化は、必ずしも異なるモデルに対して強い堅牢性を持つとは限らないことを示唆している。
論文 参考訳(メタデータ) (2022-09-27T12:26:05Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z) - Towards Question-Answering as an Automatic Metric for Evaluating the
Content Quality of a Summary [65.37544133256499]
質問回答(QA)を用いて要約内容の質を評価する指標を提案する。
提案指標であるQAEvalの分析を通じて,QAに基づくメトリクスの実験的メリットを実証する。
論文 参考訳(メタデータ) (2020-10-01T15:33:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。