論文の概要: Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks
- arxiv url: http://arxiv.org/abs/2401.17585v1
- Date: Wed, 31 Jan 2024 04:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 15:38:18.793629
- Title: Propagation and Pitfalls: Reasoning-based Assessment of Knowledge
Editing through Counterfactual Tasks
- Title(参考訳): 伝播と落とし穴:反現実的課題による知識編集の推論に基づく評価
- Authors: Wenyue Hua, Jiang Guo, Mingwen Dong, Henghui Zhu, Patrick Ng, Zhiguo
Wang
- Abstract要約: ReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入する。
我々は既存の知識編集技術を徹底的に分析し、入力強化、微調整、位置と編集を行う。
全てのモデル編集手法は、特に特定の推論スキームにおいて、このデータセットで顕著に低い性能を示す。
- 参考スコア(独自算出の注目度): 36.292901021210575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current approaches of knowledge editing struggle to effectively propagate
updates to interconnected facts. In this work, we delve into the barriers that
hinder the appropriate propagation of updated knowledge within these models for
accurate reasoning. To support our analysis, we introduce a novel
reasoning-based benchmark -- ReCoE (Reasoning-based Counterfactual Editing
dataset) -- which covers six common reasoning schemes in real world. We conduct
a thorough analysis of existing knowledge editing techniques, including input
augmentation, finetuning, and locate-and-edit. We found that all model editing
methods show notably low performance on this dataset, especially in certain
reasoning schemes. Our analysis over the chain-of-thought generation of edited
models further uncover key reasons behind the inadequacy of existing knowledge
editing methods from a reasoning standpoint, involving aspects on fact-wise
editing, fact recall ability, and coherence in generation. We will make our
benchmark publicly available.
- Abstract(参考訳): 知識編集の現在のアプローチは、相互接続された事実の更新を効果的に広めるために苦労している。
本研究では,これらのモデル内での知識の適切な伝達を妨げる障壁を探索し,正確な推論を行う。
我々の分析をサポートするため、我々はReCoE(Reasoning-based Counterfactual Editing dataset)という新しい推論ベースのベンチマークを導入しました。
入力拡張,微調整,位置・編集など,既存の知識編集技術の徹底的な分析を行う。
モデル編集手法はすべて,このデータセット上で,特に特定の推論スキームにおいて,特に低い性能を示すことがわかった。
本研究は,既存の知識編集手法が不十分である理由を推論の立場から解明し,事実毎の編集,事実記憶能力,世代間の一貫性に関する側面を明らかにした。
ベンチマークを一般公開する予定です。
関連論文リスト
- KEBench: A Benchmark on Knowledge Editing for Large Vision-Language
Models [52.11803779918731]
LVLM(Large Vision-Language Models)の編集は、さまざまなモダリティ(画像とテキスト)を統合すると同時に、一貫性とコンテキストに関連のある修正を保証する。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$textbfKEBench$を採用し、包括的な評価のために新しいメトリック(移植性)を拡張します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - Updating Language Models with Unstructured Facts: Towards Practical
Knowledge Editing [87.35944788684958]
我々は新しいベンチマークUnstructured Knowledge Editing (UKE)を提案する。
UKEは、構造化されていないテキストを直接知識更新として使用する編集性能を評価し、構造化されていない事実と呼ぶ。
新たに構築されたデータセットに関する広範な実験を行い、UKEが最先端の知識編集手法に重大な課題をもたらすことを示した。
論文 参考訳(メタデータ) (2024-02-29T07:08:34Z) - EVEDIT: Event-based Knowledge Editing with Deductive Editing Boundaries [69.72012539060731]
大規模言語モデル(LLM)における効率的な知識編集(KE)の理論的枠組みを導入する。
本稿では,事象をイベント記述と組み合わせたイベントベースの知識編集タスクを提案する。
編集モデルにおける不確実性を解消するための既存の設定よりもイベントベースの編集の方が優れていることを実証的に示す。
論文 参考訳(メタデータ) (2024-02-17T16:34:50Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
提案手法は,下流タスク性能と強い相関を示す広範な実験により検証され,サロゲート指標としてパープレキシティを用いる。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - History Matters: Temporal Knowledge Editing in Large Language Model [42.74144542674756]
本稿では,時間的知識編集(TKE)の課題を紹介し,現在のモデル編集手法を評価するためのベンチマークATOKeを確立する。
既存のモデル編集手法は、モデルに新しい知識を記憶させるのに有効であるが、編集されたモデルは歴史的知識を破滅的に忘れてしまう。
このギャップに対処するため,既存の編集モデルを改善するためのMulti-Editing with Time Objective (METO) という,シンプルで汎用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-09T07:51:56Z) - Assessing Knowledge Editing in Language Models via Relation Perspective [21.64869056276927]
本稿では,関係に基づく知識編集に焦点を当てたRaKEという新しいベンチマークを構築した。
我々は,様々な知識編集ベースラインを含む総合的な実験を評価・実施するための,革新的な指標のセットを構築した。
本研究結果は,関係に関する知識がFFNネットワークだけでなく,注目層にも蓄積されていることを確認する。
論文 参考訳(メタデータ) (2023-11-15T15:44:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。