論文の概要: Detecting Edited Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2405.02765v2
- Date: Mon, 1 Jul 2024 19:20:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 07:09:19.922437
- Title: Detecting Edited Knowledge in Language Models
- Title(参考訳): 言語モデルにおける編集知識の検出
- Authors: Paul Youssef, Zhixue Zhao, Jörg Schlötterer, Christin Seifert,
- Abstract要約: 知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
- 参考スコア(独自算出の注目度): 5.260519479124422
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Knowledge editing methods (KEs) can update language models' obsolete or inaccurate knowledge learned from pre-training. However, KEs can be used for malicious applications, e.g., inserting misinformation and toxic content. Knowing whether a generated output is based on edited knowledge or first-hand knowledge from pre-training can increase users' trust in generative models and provide more transparency. Driven by this, we propose a novel task: detecting edited knowledge in language models. Given an edited model and a fact retrieved by a prompt from an edited model, the objective is to classify the knowledge as either unedited (based on the pre-training), or edited (based on subsequent editing). We instantiate the task with four KEs, two LLMs, and two datasets. Additionally, we propose using the hidden state representations and the probability distributions as features for the detection. Our results reveal that, using these features as inputs to a simple AdaBoost classifiers establishes a strong baseline. This classifier requires only a limited amount of data and maintains its performance even in cross-domain settings. Last, we find it more challenging to distinguish edited knowledge from unedited but related knowledge, highlighting the need for further research. Our work lays the groundwork for addressing malicious model editing, which is a critical challenge associated with the strong generative capabilities of LLMs.
- Abstract(参考訳): 知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
しかし、KEsは悪意のあるアプリケーション、例えば誤情報や有害な内容の挿入に使用することができる。
生成されたアウトプットが、編集された知識に基づいているか、事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高め、透明性を高めることができる。
そこで本稿では,言語モデルにおける編集知識の検出という,新たな課題を提案する。
編集されたモデルと、編集されたモデルからのプロンプトによって取得された事実が与えられた場合、その目的は、知識を未編集(事前学習に基づく)または編集(その後の編集に基づく)のいずれかに分類することである。
タスクを4つのKE、2つのLLM、2つのデータセットでインスタンス化する。
さらに,隠れ状態表現と確率分布を検出のための特徴として用いることを提案する。
以上の結果から,これらの機能を単純なAdaBoost分類器の入力として使用すると,強力なベースラインが確立されることがわかった。
この分類器は限られた量のデータしか必要とせず、クロスドメイン設定でも性能を維持する。
最後に、編集された知識と未編集だが関連する知識を区別することがより困難であることが、さらなる研究の必要性を浮き彫りにしている。
我々の研究は、LLMの強力な生成能力に関わる重要な課題である悪意あるモデル編集に対処するための基礎となる。
関連論文リスト
- How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? [18.022428746019582]
本研究では,「複雑度」の異なる知識を取り入れた知識編集手法の能力について検討する。
新たな知識の「複雑さ」と12シナリオの編集効率との間に有意な負の相関関係が認められた。
知識階層が編集結果に与える影響のさらなる調査は、より階層的な水準にある知識が、いくつかのシナリオにおいて変更することがより困難であることを示唆している。
論文 参考訳(メタデータ) (2024-06-25T03:41:02Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。