Fugu-MT 論文翻訳(概要): Identifying Knowledge Editing Types in Large Language Models

論文の概要: Identifying Knowledge Editing Types in Large Language Models

arxiv url: http://arxiv.org/abs/2409.19663v1
Date: Tue, 1 Oct 2024 06:35:24 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-05 21:58:59.397498
Title: Identifying Knowledge Editing Types in Large Language Models
Title（参考訳）: 大規模言語モデルにおける知識編集のタイプ同定
Authors: Xiaopeng Li, Shangwen Wang, Shezheng Song, Bin Ji, Huijun Liu, Shasha Li, Jun Ma, Jie Yu,
Abstract要約: 知識編集技術の悪用を防ぐための効果的な対策の欠如が顕著である。悪意のある修正は、大きな言語モデル(LLM)が有害な内容を生成する可能性がある。 KETIBenchは、5種類の悪意のあるアップデートと1種類の良心的なアップデートを含むベンチマークです。
参考スコア（独自算出の注目度）: 11.051687980330286
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge editing has emerged as an efficient approach for updating the knowledge of large language models (LLMs), attracting increasing attention in recent research. However, there is a notable lack of effective measures to prevent the malicious misuse of this technology, which could lead to harmful edits in LLMs. These malicious modifications have the potential to cause LLMs to generate toxic content, misleading users into inappropriate actions. To address this issue, we introduce a novel task, \textbf{K}nowledge \textbf{E}diting \textbf{T}ype \textbf{I}dentification (KETI), aimed at identifying malicious edits in LLMs. As part of this task, we present KETIBench, a benchmark that includes five types of malicious updates and one type of benign update. Furthermore, we develop four classical classification models and three BERT-based models as baseline identifiers for both open-source and closed-source LLMs. Our experimental results, spanning 42 trials involving two models and three knowledge editing methods, demonstrate that all seven baseline identifiers achieve decent identification performance, highlighting the feasibility of identifying malicious edits in LLMs. Additional analyses reveal that the performance of the identifiers is independent of the efficacy of the knowledge editing methods and exhibits cross-domain generalization, enabling the identification of edits from unknown sources. All data and code are available in https://github.com/xpq-tech/KETI. Warning: This paper contains examples of toxic text.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) の知識を更新するための効率的な手法として知識編集が登場し,注目が集まっている。しかし、この技術の悪用を防ぐための効果的な対策が欠如しており、LSMの有害な編集に繋がる可能性がある。これらの悪意のある修正は、LSMが有害なコンテンツを生成し、ユーザを不適切なアクションに導く可能性がある。この問題に対処するために、LLMにおける悪意のある編集を識別することを目的とした新しいタスクである \textbf{K}nowledge \textbf{E}diting \textbf{T}ype \textbf{I}dentification (KETI)を導入する。このタスクの一環として、5種類の悪意のある更新と1種類の良心的な更新を含むベンチマークであるKETIBenchを紹介します。さらに,オープンソース LLM とクローズドソース LLM のベースライン識別子として,4つの古典的分類モデルと3つのBERTベースモデルを開発した。実験の結果, 2つのモデルと3つの知識編集手法を含む42の試行にまたがって, 7つのベースライン識別子がすべてまともな識別性能を達成し,LLMにおける悪意ある編集の特定の可能性を強調した。さらなる分析により、識別子のパフォーマンスは知識編集方法の有効性とは独立であり、ドメイン間の一般化を示し、未知のソースからの編集の識別を可能にすることが明らかとなった。すべてのデータとコードはhttps://github.com/xpq-tech/KETIで入手できる。警告: 本論文は有毒テキストの例を含む。

関連論文リスト

Consistency-Aware Editing for Entity-level Unlearning in Language Models [53.522931419965424]
本稿では,エンティティレベルのアンラーニングのための新しい一貫性対応編集(CAE)フレームワークを提案する。 CAEは、その属性、関係、および敵のパラフレーズを含む、ターゲットエンティティに関連する多様なプロンプトの集合を集約する。次に、一貫性レギュレータによってガイドされる低ランクの更新を共同で学習し、プロンプトをまたいだ編集方向を調整する。
論文参考訳（メタデータ） (2025-12-19T15:18:07Z)
Latent Knowledge Scalpel: Precise and Massive Knowledge Editing for Large Language Models [3.834827405473377]
大規模言語モデル(LLM)は、しばしば事前学習から不正確な情報や時代遅れの情報を保持し、推論中に誤った予測や偏りのある出力をもたらす。我々はLLMエディタであるLatent Knowledge Scalpel(LKS)を紹介し、軽量なハイパーネットワークを用いて特定のエンティティの潜在知識を操作し、正確かつ大規模な編集を可能にする。 Llama-2とMistralで行った実験では、同時編集数が10,000に達したとしても、LKSは編集されたLLMの一般的な能力を保ちながら知識編集を効果的に行う。
論文参考訳（メタデータ） (2025-08-01T03:51:43Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
Uncovering Overfitting in Large Language Model Editing [35.55260822503773]
編集対象に不均等に高い確率を割り当てる編集オーバーフィット現象を同定し,検討する。本稿では,新たな知識を振り返って編集されたモデルをガイドするマルチステージ推論制約モジュールを導入する,Learning to Inference (LTI) と呼ばれる新しいプラグイン・アンド・プレイ戦略を提案する。
論文参考訳（メタデータ） (2024-10-10T11:09:00Z)
AlphaEdit: Null-Space Constrained Knowledge Editing for Language Models [65.93240009586351]
大型言語モデル(LLM)は、しばしば誤った知識や時代遅れの知識による幻覚を示す。パラメータに適用する前に、保存された知識のnull空間に摂動を投影する新しいソリューションであるAlphaEditを紹介する。我々は,この予測が保存知識を問うと,後編集後のLLMの出力が変化しないことを理論的に証明する。
論文参考訳（メタデータ） (2024-10-03T10:06:27Z)
ELDER: Enhancing Lifelong Model Editing with Mixture-of-LoRA [55.697627106315004]
大規模言語モデル(LLM)は、特定の知識を効率的に更新し、事実の誤りを避けるためにモデル編集を必要とする。従来のアプローチでは、元のパラメータを凍結し、知識更新毎に新しいパラメータを個別に割り当てることで、シーケンシャルな編集を管理する。本稿では,データとアダプタを連続的に関連付ける新しい手法であるELDERを提案する。
論文参考訳（メタデータ） (2024-08-19T02:27:00Z)
Can Editing LLMs Inject Harm? [122.83469484328465]
我々は,大規模言語モデルに対する新しいタイプの安全脅威として,知識編集を再構築することを提案する。誤情報注入の危険性については,まずコモンセンス誤情報注入とロングテール誤情報注入に分類する。偏見注入のリスクに対して, 偏見文をLLMに高効率で注入できるだけでなく, 1つの偏見文注入で偏見が増大することを発見した。
論文参考訳（メタデータ） (2024-07-29T17:58:06Z)
How Well Can Knowledge Edit Methods Edit Perplexing Knowledge? [18.022428746019582]
本研究では,「複雑度」の異なる知識を取り入れた知識編集手法の能力について検討する。新たな知識の「複雑さ」と12シナリオの編集効率との間に有意な負の相関関係が認められた。知識階層が編集結果に与える影響のさらなる調査は、より階層的な水準にある知識が、いくつかのシナリオにおいて変更することがより困難であることを示唆している。
論文参考訳（メタデータ） (2024-06-25T03:41:02Z)
Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文参考訳（メタデータ） (2024-05-04T22:02:24Z)
Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文参考訳（メタデータ） (2024-03-10T16:57:10Z)
Knowledge Graph Enhanced Large Language Model Editing [37.6721061644483]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要な要素である。既存の編集方法は、編集に関連する知識の変化を追跡し、組み込むのに苦労する。知識グラフを利用した新しいモデル編集手法を提案し,LLM編集の強化,すなわちGLAMEを提案する。
論文参考訳（メタデータ） (2024-02-21T07:52:26Z)
Learning to Edit: Aligning LLMs with Knowledge Editing [101.96620267293731]
本稿では,大規模言語モデルに新たな知識を入力問題に適用する学習 to LTE(Learning to Edit)フレームワークを提案する。 LTEには2段階のプロセスがある: (i) アライメントフェーズ(アライメントフェーズ)。 LTEの知識編集性能の優位性、バッチおよびシーケンシャルな編集の堅牢性、一般的なタスクに対する最小限の干渉、高速な編集速度を示す。
論文参考訳（メタデータ） (2024-02-19T07:45:17Z)
Unveiling the Pitfalls of Knowledge Editing for Large Language Models [41.83423510576848]
知識編集が潜在的なリスクをもたらす副作用をもたらすかどうかはまだ不明である。本稿では,大規模言語モデルの知識編集に伴う潜在的な落とし穴について検討する。実験結果は、知識編集が意図しない結果の影を必然的に落としてしまうことを鮮明に示している。
論文参考訳（メタデータ） (2023-10-03T15:10:46Z)
Cross-Lingual Knowledge Editing in Large Language Models [73.12622532088564]
知識編集は、スクラッチから再学習することなく、大きな言語モデルを新しい知識に適応させることが示されている。ソース言語編集が別のターゲット言語に与える影響は、いまだ不明である。まず、ZsREを英語から中国語に翻訳することで、大規模な言語間合成データセットを収集する。
論文参考訳（メタデータ） (2023-09-16T11:07:52Z)
Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文参考訳（メタデータ） (2023-05-22T16:00:00Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。