論文の概要: Identifying Knowledge Editing Types in Large Language Models
- arxiv url: http://arxiv.org/abs/2409.19663v2
- Date: Tue, 1 Oct 2024 06:35:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 21:58:59.394080
- Title: Identifying Knowledge Editing Types in Large Language Models
- Title(参考訳): 大規模言語モデルにおける知識編集のタイプ同定
- Authors: Xiaopeng Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Shasha Li, Jun Ma, Jie Yu,
- Abstract要約: 知識編集技術の悪用を防ぐための効果的な対策が欠如している。
本稿では,大規模言語モデル(LLM)における様々な種類の編集を識別することを目的とした知識編集型識別(KETI)を提案する。
我々はKETIBenchを開発した。KETIBenchは、最も一般的な有毒なタイプをカバーする5種類の有害な編集と、1つの良心的な事実的編集を含む。
- 参考スコア(独自算出の注目度): 11.051687980330286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Knowledge editing has emerged as an efficient technology for updating the knowledge of large language models (LLMs), attracting increasing attention in recent years. However, there is a lack of effective measures to prevent the malicious misuse of this technology, which could lead to harmful edits in LLMs. These malicious modifications could cause LLMs to generate toxic content, misleading users into inappropriate actions. In front of this risk, we introduce a new task, Knowledge Editing Type Identification (KETI), aimed at identifying different types of edits in LLMs, thereby providing timely alerts to users when encountering illicit edits. As part of this task, we propose KETIBench, which includes five types of harmful edits covering most popular toxic types, as well as one benign factual edit. We develop four classical classification models and three BERT-based models as baseline identifiers for both open-source and closed-source LLMs. Our experimental results, across 42 trials involving two models and three knowledge editing methods, demonstrate that all seven baseline identifiers achieve decent identification performance, highlighting the feasibility of identifying malicious edits in LLMs. Additional analyses reveal that the performance of the identifiers is independent of the reliability of the knowledge editing methods and exhibits cross-domain generalization, enabling the identification of edits from unknown sources. All data and code are available in https://github.com/xpq-tech/KETI. Warning: This paper contains examples of toxic text.
- Abstract(参考訳): 近年,大規模言語モデル (LLM) の知識を更新するための効率的な技術として知識編集が登場し,注目を集めている。
しかし、この技術の悪用を防ぐための効果的な対策が欠如しており、LSMの有害な編集につながる可能性がある。
これらの悪意のある修正は、LSMが有害なコンテンツを生成し、ユーザを不適切なアクションに導く可能性がある。
このリスクを前にして,LLMにおける様々な種類の編集を識別することを目的とした,知識編集型識別(KETI)という新たなタスクを導入する。
この課題の一環として,KETIBenchを提案する。KETIBenchには,最も一般的な有害なタイプをカバーする5種類の有害な編集が含まれている。
オープンソースLLMとクローズドソースLLMのベースライン識別子として,4つの古典的分類モデルと3つのBERTベースモデルを開発した。
実験の結果,2つのモデルと3つの知識編集手法を含む42の試行において,7つのベースライン識別子が良好な識別性能を示し,LLMにおける悪意ある編集を識別する可能性が示された。
さらなる分析により、識別子の性能は知識編集手法の信頼性とは独立であり、ドメイン間の一般化を示し、未知のソースからの編集の識別を可能にすることが明らかになった。
すべてのデータとコードはhttps://github.com/xpq-tech/KETIで入手できる。
警告: 本論文は有毒テキストの例を含む。
関連論文リスト
- AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models [65.93240009586351]
大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。
パラメータに適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションであるAlphaEditを紹介する。
我々は,この予測が保存知識を問うと,後編集後のLLMの出力が変化しないことを理論的に証明する。
論文 参考訳(メタデータ) (2024-10-03T10:06:27Z) - Can Editing LLMs Inject Harm? [122.83469484328465]
我々は,大規模言語モデルに対する新しいタイプの安全脅威として,知識編集を再構築することを提案する。
誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。
偏見注入のリスクに対して, 偏見文をLLMに高効率で注入できるだけでなく, 1つの偏見文注入で偏見が増大することを発見した。
論文 参考訳(メタデータ) (2024-07-29T17:58:06Z) - How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? [18.022428746019582]
本研究では,「複雑度」の異なる知識を取り入れた知識編集手法の能力について検討する。
新たな知識の「複雑さ」と12シナリオの編集効率との間に有意な負の相関関係が認められた。
知識階層が編集結果に与える影響のさらなる調査は、より階層的な水準にある知識が、いくつかのシナリオにおいて変更することがより困難であることを示唆している。
論文 参考訳(メタデータ) (2024-06-25T03:41:02Z) - Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - Knowledge Graph Enhanced Large Language Model Editing [37.6721061644483]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要な要素である。
既存の編集方法は、編集に関連する知識の変化を追跡し、組み込むのに苦労する。
知識グラフを利用した新しいモデル編集手法を提案し,LLM編集の強化,すなわちGLAMEを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:52:26Z) - Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。
LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。
LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文 参考訳(メタデータ) (2024-02-19T07:45:17Z) - Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。
本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。
実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文 参考訳(メタデータ) (2023-10-03T15:10:46Z) - Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。
ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。
まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文 参考訳(メタデータ) (2023-09-16T11:07:52Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。