Fugu-MT 論文翻訳(概要): Detoxifying Large Language Models via Knowledge Editing

論文の概要: Detoxifying Large Language Models via Knowledge Editing

arxiv url: http://arxiv.org/abs/2403.14472v1
Date: Thu, 21 Mar 2024 15:18:30 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-22 13:39:41.929165
Title: Detoxifying Large Language Models via Knowledge Editing
Title（参考訳）: 知識編集による大規模言語モデルのデトックス化
Authors: Mengru Wang, Ningyu Zhang, Ziwen Xu, Zekun Xi, Shumin Deng, Yunzhi Yao, Qishen Zhang, Linyi Yang, Jindong Wang, Huajun Chen,
Abstract要約: 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。我々は,知識編集アプローチを従来のベースラインと比較する実験を行い,知識編集がLLMを効率的に解毒する可能性を示唆した。
参考スコア（独自算出の注目度）: 57.0669577257301
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper investigates using knowledge editing techniques to detoxify Large Language Models (LLMs). We construct a benchmark, SafeEdit, which covers nine unsafe categories with various powerful attack prompts and equips comprehensive metrics for systematic evaluation. We conduct experiments to compare knowledge editing approaches with previous baselines, indicating that knowledge editing has the potential to efficiently detoxify LLMs with limited impact on general performance. Then, we propose a simple yet effective baseline, dubbed Detoxifying with Intraoperative Neural Monitoring (DINM), to diminish the toxicity of LLMs within a few tuning steps via only one instance. We further provide an in-depth analysis of the internal mechanism for various detoxify approaches, demonstrating that previous methods like SFT and DPO may merely suppress the activations of toxic parameters, while DINM mitigates the toxicity of the toxic parameters to a certain extent, making permanent adjustments. We hope that these insights could shed light on future work of developing detoxifying approaches and the underlying knowledge mechanisms of LLMs. Code and benchmark are available at https://github.com/zjunlp/EasyEdit.
Abstract（参考訳）: 本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。我々は、安全でない9つのカテゴリを様々な強力なアタックプロンプトでカバーし、体系的な評価のために総合的なメトリクスを装備するベンチマーク、SafeEditを構築した。我々は,知識編集アプローチを従来のベースラインと比較する実験を行い,知識編集がLLMを効率よく解毒する可能性を示唆した。そこで我々は,DINM(Detoxifying with intraoperative Neural Monitoring)と呼ばれるシンプルなベースラインを提案する。さらに, 従来のSFT法やDPO法は毒性パラメータの活性化を抑制できるが, DINM法は毒性パラメータの毒性をある程度軽減し, 恒久的な調整を行うことを実証した。これらの知見が,LSMの非毒性化アプローチと基盤となる知識メカニズムの今後の研究に光を当てることが期待できる。コードとベンチマークはhttps://github.com/zjunlp/EasyEdit.comで公開されている。

関連論文リスト

Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文参考訳（メタデータ） (2026-01-16T21:01:26Z)
Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。 textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。 ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文参考訳（メタデータ） (2025-09-24T03:40:32Z)
Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model [15.394714537797183]
既存のLarge Language Model (LLM) の解毒法は、大規模な非毒性または人為的な嗜好データに基づく訓練に依存している。生成パイプラインの軽量な介入により目標LSMの解毒過程を導出する,コンパクトで事前訓練された校正モデルを提案する。
論文参考訳（メタデータ） (2025-06-02T02:36:32Z)
Adaptive Detoxification: Safeguarding General Capabilities of LLMs through Toxicity-Aware Knowledge Editing [49.85884082568318]
ToxEditは毒性を意識した知識編集アプローチである。前方伝播中の毒性活性化パターンを動的に検出する。その後、適応的な層間経路を通じて計算をルーティングし、毒性を効果的に緩和する。
論文参考訳（メタデータ） (2025-05-28T12:37:06Z)
GloSS over Toxicity: Understanding and Mitigating Toxicity in LLMs via Global Toxic Subspace [62.68664365246247]
本稿では,大規模言語モデル(LLM)の毒性発生機構について検討する。 GloSS(Global Toxic Subspace Suppression)は,FFNのパラメータからグローバルな毒性部分空間を同定・除去することにより毒性を緩和する軽量な4段階法である。
論文参考訳（メタデータ） (2025-05-20T08:29:11Z)
Aligned Probing: Relating Toxic Behavior and Model Internals [66.49887503194101]
言語モデル(LM)の振る舞いを協調する新しい解釈可能性フレームワークであるアライメント・プロブリングを導入する。本フレームワークを用いて,20以上のOLMo,Llama,Mistralモデルについて検討した。以上の結果から,LMは,特に下層において,入力およびその後の出力の毒性レベルに関する情報を強くエンコードしていることがわかった。
論文参考訳（メタデータ） (2025-03-17T17:23:50Z)
How Toxic Can You Get? Search-based Toxicity Testing for Large Language Models [0.5597620745943381]
大型言語モデル(LLM)は、有害な応答を発生させる傾向にある場合、大きな損傷を引き起こす可能性がある。毒性に対するLSMの傾きを自動テストするフレームワークであるEvoToxについて紹介する。我々は4つの最先端LCMを用いて定量的・定性的な実験評価を行う。
論文参考訳（メタデータ） (2025-01-03T10:08:49Z)
Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。 SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。 Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文参考訳（メタデータ） (2024-10-04T17:45:15Z)
Precision Knowledge Editing: Enhancing Safety in Large Language Models [4.241100280846233]
本研究は,既存の知識編集手法に基づく高度な技術である精密知識編集(PKE)を紹介する。 PKEは、DINM(Detoxifying Instance Neuron Modification)のような従来の方法と比較して、有害なコンテンツ管理の粒度を極小に達成する実験の結果,PKEは様々なモデルに対する攻撃成功率(ASR)を大幅に低下させることがわかった。
論文参考訳（メタデータ） (2024-10-02T23:15:53Z)
Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
大言語モデル(LLM)は、ジェネラリストアシスタントとして大きな可能性を示している。これらのモデルは、非毒性や脱獄の試みに対するレジリエンスなど、望ましい行動特性を示すことが重要である。本稿では,パラメータの小さなサブセットを直接編集することで,LLMの特定の振る舞いを効果的に調節できることを観察する。
論文参考訳（メタデータ） (2024-07-11T17:52:03Z)
Realistic Evaluation of Toxicity in Large Language Models [28.580995165272086]
大規模言語モデル(LLM)は、私たちの専門的および日常生活に不可欠なものになっています。膨大な量のデータに膨大な多様な知識を与えると、避けられない毒性と偏見に晒される。本稿では,手作業によるプロンプトを含むToroughly Engineered Toxicityデータセットを紹介する。
論文参考訳（メタデータ） (2024-05-17T09:42:59Z)
Unveiling the Implicit Toxicity in Large Language Models [77.90933074675543]
大きな言語モデル(LLM)のオープンエンドネスと、その優れた機能を組み合わせることで、悪意のある使用のために悪用された場合、新たな安全性上の問題が発生する可能性がある。 LLMは、単純なゼロショットプロンプトによる検出が極めて困難である様々な暗黙的な有毒な出力を生成することができることを示す。我々は,LLMの暗黙的毒性をさらに誘発する強化学習(RL)に基づく攻撃法を提案する。
論文参考訳（メタデータ） (2023-11-29T06:42:36Z)
Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文参考訳（メタデータ） (2023-10-14T12:51:38Z)
Detoxifying Text with MaRCo: Controllable Revision with Experts and Anti-Experts [57.38912708076231]
本稿では,制御可能な生成法とテキスト書き直し法を組み合わせた解毒アルゴリズムMARCoを紹介する。 MaRCoは、毒性のないLMと毒性のあるLMの下の可能性を利用して、マスクすべき候補単語を見つけ、置換する可能性がある。我々は,いくつかの微妙な毒性とマイクロアグレスデータセットについて評価し,自動測定値の基準値を上回るだけでなく,MARCoの書き直しは人間による評価で2.1ドル以上好まれることを示した。
論文参考訳（メタデータ） (2022-12-20T18:50:00Z)
Leashing the Inner Demons: Self-Detoxification for Language Models [13.576289320208511]
言語モデル(LM)は、トレーニング中に見られる有害な言語を再現(または増幅)することができる。我々は、プロンプト、復号化戦略、学習コーパスが出力に与える影響を分析する。本稿では,言語モデルに対して,新たな大きなコーパスや外部識別器を使わずに「デトックス化」を行うための簡易かつ効果的な手法を提案する。
論文参考訳（メタデータ） (2022-03-06T23:55:12Z)
RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文参考訳（メタデータ） (2020-09-24T03:17:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。