論文の概要: Detecting Edited Knowledge in Language Models
- arxiv url: http://arxiv.org/abs/2405.02765v1
- Date: Sat, 4 May 2024 22:02:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-07 18:30:11.531496
- Title: Detecting Edited Knowledge in Language Models
- Title(参考訳): 言語モデルにおける編集知識の検出
- Authors: Paul Youssef, Zhixue Zhao, Jörg Schlötterer, Christin Seifert,
- Abstract要約: 知識編集技術(KE)は、事前学習から学んだ言語モデルの時代遅れまたは不正確な知識を更新することができる。
しかし、KEはまた、誤情報や有害な内容の挿入など、潜在的に悪意のある応用に直面している。
我々は,言語モデルにおける編集された知識を,新しいタスクを導入して検出することを研究する。編集されたモデルとモデルが生成する特定の知識を与えられた場合,その知識を「非編集」(事前学習に基づく)または「編集」(その後の編集に基づく)のいずれかに分類することを目的とする。
- 参考スコア(独自算出の注目度): 5.260519479124422
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Knowledge editing techniques (KEs) can update language models' obsolete or inaccurate knowledge learned from pre-training. However, KE also faces potential malicious applications, e.g. inserting misinformation and toxic content. Moreover, in the context of responsible AI, it is instructive for end-users to know whether a generated output is driven by edited knowledge or first-hand knowledge from pre-training. To this end, we study detecting edited knowledge in language models by introducing a novel task: given an edited model and a specific piece of knowledge the model generates, our objective is to classify the knowledge as either "non-edited" (based on the pre-training), or ``edited'' (based on subsequent editing). We initiate the task with two state-of-the-art KEs, two language models, and two datasets. We further propose a simple classifier, RepReg, a logistic regression model that takes hidden state representations as input features. Our results reveal that RepReg establishes a strong baseline, achieving a peak accuracy of 99.81%, and 97.79% in out-of-domain settings. Second, RepReg achieves near-optimal performance with a limited training set (200 training samples), and it maintains its performance even in out-of-domain settings. Last, we find it more challenging to separate edited and non-edited knowledge when they contain the same subject or object.
- Abstract(参考訳): 知識編集技術(KE)は、事前学習から学んだ言語モデルの時代遅れまたは不正確な知識を更新することができる。
しかしKEはまた、誤情報や有害なコンテンツを挿入するなど、潜在的に悪意のあるアプリケーションに直面している。
さらに、責任あるAIの文脈では、エンドユーザは、生成されたアウトプットが編集された知識によって駆動されているか、事前トレーニングからファーストハンドの知識によって駆動されているかを知るように指示される。
そこで本研究では,言語モデルにおける編集された知識を,新たなタスクを導入することで検出する。編集されたモデルとモデルが生成する特定の知識が与えられた場合,その知識を(事前学習に基づく)「非編集」あるいは「編集」のいずれかに分類することを目的とする。
2つの最先端KE、2つの言語モデル、2つのデータセットでタスクを開始する。
さらに,隠れ状態表現を入力特徴とするロジスティック回帰モデルRepRegを提案する。
我々の結果は、RepRegが強いベースラインを確立し、99.81%のピーク精度と97.79%のドメイン外設定を実現していることを示している。
第二に、RepRegは限られたトレーニングセット(200のトレーニングサンプル)でほぼ最適のパフォーマンスを達成し、ドメイン外の設定でもパフォーマンスを維持する。
最後に、同じ主題や対象を含む場合、編集された知識と非編集された知識を分離することはより困難である。
関連論文リスト
- How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? [18.022428746019582]
本研究では,「複雑度」の異なる知識を取り入れた知識編集手法の能力について検討する。
新たな知識の「複雑さ」と12シナリオの編集効率との間に有意な負の相関関係が認められた。
知識階層が編集結果に与える影響のさらなる調査は、より階層的な水準にある知識が、いくつかのシナリオにおいて変更することがより困難であることを示唆している。
論文 参考訳(メタデータ) (2024-06-25T03:41:02Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - On the Robustness of Editing Large Language Models [57.477943944826904]
大型言語モデル(LLM)はコミュニケーションAIの構築において重要な役割を担っているが、効率的な更新の課題に直面している。
この研究は、編集方法の長所と短所を理解し、コミュニケーション型AIの実践的応用を促進することを目的としている。
論文 参考訳(メタデータ) (2024-02-08T17:06:45Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Knowledge-Augmented Language Model Verification [68.6099592486075]
最近の言語モデル(LM)は、パラメータに内在化された知識を持つテキストを生成する際、印象的な能力を示している。
本稿では,知識付加型LMの出力と知識を別個の検証器で検証することを提案する。
その結果,提案した検証器は,検索と生成の誤りを効果的に識別し,LMがより現実的に正しい出力を提供できることを示した。
論文 参考訳(メタデータ) (2023-10-19T15:40:00Z) - Can LMs Learn New Entities from Descriptions? Challenges in Propagating
Injected Knowledge [72.63368052592004]
我々は、注入された事実に基づいて推論を行う(またはそれらの事実を伝播する)LMの能力について研究する。
既存の知識更新手法では,注入知識の伝播がほとんどないことがわかった。
しかし、LMのコンテキストにおけるエンティティ定義の予測は、すべての設定におけるパフォーマンスを改善する。
論文 参考訳(メタデータ) (2023-05-02T17:59:46Z) - Editing Factual Knowledge in Language Models [51.947280241185]
本稿では,この知識を編集する手法であるKnowledgeEditorを提案する。
knowledgeeditorは計算効率が高いだけでなく、lm事前トレーニングの修正も必要としない。
2つの一般的なアーキテクチャと知識集約型タスクで、KnowledgeEditorの有効性を示します。
論文 参考訳(メタデータ) (2021-04-16T15:24:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。