Fugu-MT 論文翻訳(概要): Precision Knowledge Editing: Enhancing Safety in Large Language Models

論文の概要: Precision Knowledge Editing: Enhancing Safety in Large Language Models

arxiv url: http://arxiv.org/abs/2410.03772v1
Date: Wed, 2 Oct 2024 23:15:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 16:30:33.264336
Title: Precision Knowledge Editing: Enhancing Safety in Large Language Models
Title（参考訳）: 高精度知識編集:大規模言語モデルにおける安全性向上
Authors: Xuying Li, Zhuo Li, Yuji Kosuga, Yasuhiro Yoshida, Victor Bian,
Abstract要約: 本研究は,既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を紹介する。 PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の粒度を極小に達成する実験の結果,PKEは様々なモデルに対する攻撃成功率(ASR)を大幅に低下させることがわかった。
参考スコア（独自算出の注目度）: 4.241100280846233
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities, but they also pose risks related to the generation of toxic or harmful content. This work introduces Precision Knowledge Editing (PKE), an advanced technique that builds upon existing knowledge editing methods to more effectively identify and modify toxic parameter regions within LLMs. By leveraging neuron weight tracking and activation pathway tracing, PKE achieves finer granularity in toxic content management compared to previous methods like Detoxifying Instance Neuron Modification (DINM). Our experiments demonstrate that PKE significantly reduces the attack success rate (ASR) across various models, including Llama2-7b and Llama-3-8b-instruct, while maintaining overall model performance. Additionally, we also compared the performance of some closed-source models (gpt-4-0613 and Claude 3 Sonnet) in our experiments, and found that models adjusted using our method far outperformed the closed-source models in terms of safety. This research contributes to the ongoing efforts to make LLMs safer and more reliable for real-world applications.
Abstract（参考訳）: 大型言語モデル(LLM)は目覚ましい能力を示してきたが、有害な内容や有害な内容の生成に関わるリスクも生じている。本研究は, LLM内の有害パラメータ領域をより効果的に識別し, 修正するために, 既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を導入する。ニューロンの重量追跡と活性化経路の追跡を活用することで、PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の微粒化を実現する。実験の結果,PKEはLlama2-7bやLlama-3-8b-instructなど,様々なモデルにおける攻撃成功率(ASR)を大幅に低減し,全体のモデル性能を維持できることがわかった。さらに,実験では,いくつかのクローズドソースモデル(gpt-4-0613とClaude 3 Sonnet)の性能も比較した。この研究は、LLMを現実世界のアプリケーションにとってより安全で信頼性の高いものにするための継続的な取り組みに貢献している。

関連論文リスト

Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model [15.394714537797183]
既存のLarge Language Model (LLM) の解毒法は、大規模な非毒性または人為的な嗜好データに基づく訓練に依存している。生成パイプラインの軽量な介入により目標LSMの解毒過程を導出する,コンパクトで事前訓練された校正モデルを提案する。
論文参考訳（メタデータ） (2025-06-02T02:36:32Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
Internal Activation as the Polar Star for Steering Unsafe LLM Behavior [50.463399903987245]
SafeSwitchは、モデルの内部状態を監視し、利用することによって、安全でない出力を動的に制御するフレームワークである。実証実験の結果,SafeSwitchは安全性ベンチマークで80%以上の有害な出力を削減し,有効性を維持していることがわかった。
論文参考訳（メタデータ） (2025-02-03T04:23:33Z)
Internal Activation Revision: Safeguarding Vision Language Models Without Parameter Update [8.739132798784777]
視覚言語モデル(VLM)は、強いマルチモーダル能力を示すが、有害なコンテンツを生成する可能性が高い。本稿では,世代ごとのアクティベーションを効率的に修正するテクスブファイナル・アクティベーション・リビジョン・アプローチを提案する。我々のフレームワークはレイヤーレベルとヘッドレベルの両方のリビジョンを組み込んでおり、モデルの生成を様々なレベルの粒度で制御する。
論文参考訳（メタデータ） (2025-01-24T06:17:22Z)
Dissecting Fine-Tuning Unlearning in Large Language Models [12.749301272512222]
微調整に基づく未学習法は、大規模言語モデルにおいて有害で機密性の高い、あるいは著作権のある情報を防ぐために一般的である。しかし、これらの手法の真の有効性は明らかでない。本研究では,アクティベーションパッチやリカバリ実験を通じて,微調整に基づくアンラーニングの限界を掘り下げる。
論文参考訳（メタデータ） (2024-10-09T06:58:09Z)
Enhancing Training Data Attribution for Large Language Models with Fitting Error Consideration [74.09687562334682]
Debias and Denoise Attribution (DDA) と呼ばれる新しいトレーニングデータ属性法を導入する。提案手法は既存のアプローチよりも優れており,平均91.64%のAUCを実現している。 DDAは、様々なソースとLLaMA2、QWEN2、Mistralのような異なるスケールのモデルに対して、強力な汎用性とスケーラビリティを示す。
論文参考訳（メタデータ） (2024-10-02T07:14:26Z)
GIFT-SW: Gaussian noise Injected Fine-Tuning of Salient Weights for LLMs [51.02233412547456]
我々は,Gaussian noise Injected Fine Tuning of Salient Weights (GIFT-SW)と呼ばれる新しいPEFT法を提案する。本手法では, ガウス雑音を非正弦波に注入しながら, 正弦波列のみを更新する。 LLaMAモデルによる実験により、GIFT-SWは、同じ計算予算の下で、完全な微調整および現代的なPEFTメソッドよりも優れていることが示された。
論文参考訳（メタデータ） (2024-08-27T14:41:14Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Self and Cross-Model Distillation for LLMs: Effective Methods for Refusal Pattern Alignment [11.623119255726698]
OpenAIのGPTシリーズ、AnthropicのClaude、MetaのLLaMaのような大きな言語モデル(LLM)は、テキスト生成において顕著な能力を示している。有害なプロンプトに対する感受性は、重大なセキュリティ上の課題を呈している。本稿では,SFT(Supervised Fine-Tuning)やRLHF(Reinforcement Learning from Human Feedback)などのアライメント手法について検討する。
論文参考訳（メタデータ） (2024-06-17T07:46:45Z)
Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文参考訳（メタデータ） (2024-03-21T15:18:30Z)
Retrieval-based Knowledge Transfer: An Effective Approach for Extreme Large Language Model Compression [64.07696663255155]
大規模事前学習型言語モデル(LLM)は、様々な自然言語処理(NLP)タスクにおいて例外的な性能を示した。しかし、これらのモデルの巨大なサイズは、現実世界のアプリケーションに展開する上で大きな課題をもたらします。本稿では,LLMの知識を極めて小規模なモデルに効果的に伝達するRetrieval-based Knowledge Transfer (RetriKT)と呼ばれる新しい圧縮パラダイムを提案する。
論文参考訳（メタデータ） (2023-10-24T07:58:20Z)
Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文参考訳（メタデータ） (2023-10-17T17:58:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。