論文の概要: Precision Knowledge Editing: Enhancing Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2410.03772v1
- Date: Wed, 2 Oct 2024 23:15:53 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 16:30:33.264336
- Title: Precision Knowledge Editing: Enhancing Safety in Large Language Models
- Title(参考訳): 高精度知識編集:大規模言語モデルにおける安全性向上
- Authors: Xuying Li, Zhuo Li, Yuji Kosuga, Yasuhiro Yoshida, Victor Bian,
- Abstract要約: 本研究は,既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を紹介する。
PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の粒度を極小に達成する
実験の結果,PKEは様々なモデルに対する攻撃成功率(ASR)を大幅に低下させることがわかった。
- 参考スコア(独自算出の注目度): 4.241100280846233
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, but they also pose risks related to the generation of toxic or harmful content. This work introduces Precision Knowledge Editing (PKE), an advanced technique that builds upon existing knowledge editing methods to more effectively identify and modify toxic parameter regions within LLMs. By leveraging neuron weight tracking and activation pathway tracing, PKE achieves finer granularity in toxic content management compared to previous methods like Detoxifying Instance Neuron Modification (DINM). Our experiments demonstrate that PKE significantly reduces the attack success rate (ASR) across various models, including Llama2-7b and Llama-3-8b-instruct, while maintaining overall model performance. Additionally, we also compared the performance of some closed-source models (gpt-4-0613 and Claude 3 Sonnet) in our experiments, and found that models adjusted using our method far outperformed the closed-source models in terms of safety. This research contributes to the ongoing efforts to make LLMs safer and more reliable for real-world applications.
- Abstract(参考訳): 大型言語モデル(LLM)は目覚ましい能力を示してきたが、有害な内容や有害な内容の生成に関わるリスクも生じている。
本研究は, LLM内の有害パラメータ領域をより効果的に識別し, 修正するために, 既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を導入する。
ニューロンの重量追跡と活性化経路の追跡を活用することで、PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の微粒化を実現する。
実験の結果,PKEはLlama2-7bやLlama-3-8b-instructなど,様々なモデルにおける攻撃成功率(ASR)を大幅に低減し,全体のモデル性能を維持できることがわかった。
さらに,実験では,いくつかのクローズドソースモデル(gpt-4-0613とClaude 3 Sonnet)の性能も比較した。
この研究は、LLMを現実世界のアプリケーションにとってより安全で信頼性の高いものにするための継続的な取り組みに貢献している。
関連論文リスト
- Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。
しかし、これらの手法の真の有効性は明らかでない。
本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文 参考訳(メタデータ) (2024-10-09T06:58:09Z) - Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。
提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。
DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-10-02T07:14:26Z) - GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。
本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。
LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-08-27T14:41:14Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。
これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。
本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment [11.623119255726698]
OpenAIのGPTシリーズ、AnthropicのClaude、MetaのLLaMaのような大きな言語モデル(LLM)は、テキスト生成において顕著な能力を示している。
有害なプロンプトに対する感受性は、重大なセキュリティ上の課題を呈している。
本稿では,SFT(Supervised Fine-Tuning)やRLHF(Reinforcement Learning from Human Feedback)などのアライメント手法について検討する。
論文 参考訳(メタデータ) (2024-06-17T07:46:45Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Retrieval-based Knowledge Transfer: An Effective Approach for Extreme
Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。
しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。
本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文 参考訳(メタデータ) (2023-10-24T07:58:20Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。