論文の概要: UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation
- arxiv url: http://arxiv.org/abs/2504.20500v1
- Date: Tue, 29 Apr 2025 07:40:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.793625
- Title: UniDetox: Universal Detoxification of Large Language Models via Dataset Distillation
- Title(参考訳): UniDetox: データセット蒸留による大規模言語モデルの普遍的デトックス化
- Authors: Huimin Lu, Masaru Isonuma, Junichiro Mori, Ichiro Sakata,
- Abstract要約: UniDetoxは、様々な大規模言語モデル(LLM)における毒性を軽減するために設計された方法である。
対照的なデコードを用いた新規で効率的なデトキシ化のためのデータセット蒸留手法を提案する。
実験により, GPT-2から抽出した除毒テキストは, OPT, Falcon, LLaMA-2などの大型モデルを効果的に除毒できることが示された。
- 参考スコア(独自算出の注目度): 18.150899267807965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present UniDetox, a universally applicable method designed to mitigate toxicity across various large language models (LLMs). Previous detoxification methods are typically model-specific, addressing only individual models or model families, and require careful hyperparameter tuning due to the trade-off between detoxification efficacy and language modeling performance. In contrast, UniDetox provides a detoxification technique that can be universally applied to a wide range of LLMs without the need for separate model-specific tuning. Specifically, we propose a novel and efficient dataset distillation technique for detoxification using contrastive decoding. This approach distills detoxifying representations in the form of synthetic text data, enabling universal detoxification of any LLM through fine-tuning with the distilled text. Our experiments demonstrate that the detoxifying text distilled from GPT-2 can effectively detoxify larger models, including OPT, Falcon, and LLaMA-2. Furthermore, UniDetox eliminates the need for separate hyperparameter tuning for each model, as a single hyperparameter configuration can be seamlessly applied across different models. Additionally, analysis of the detoxifying text reveals a reduction in politically biased content, providing insights into the attributes necessary for effective detoxification of LLMs.
- Abstract(参考訳): 様々な大規模言語モデル (LLM) にまたがる毒性を軽減するために, 普遍的に適用可能なUniDetoxを提案する。
従来の解毒法はモデル固有であり、個々のモデルやモデルファミリーにのみ対応し、解毒効果と言語モデリング性能のトレードオフにより、注意深いハイパーパラメータチューニングが必要となる。
対照的にUniDetoxは、モデル固有のチューニングを別途必要とせずに、幅広いLLMに普遍的に適用可能なデトキシフィケーション技術を提供する。
具体的には, 対照的なデコードを用いたデトキシ化のための新規で効率的なデータセット蒸留手法を提案する。
提案手法は, 合成テキストデータの形でデトキシ化表現を蒸留し, 蒸留したテキストを微調整することにより, 任意のLDMの普遍的デトキシ化を可能にする。
実験により, GPT-2から抽出した解毒剤は, OPT, Falcon, LLaMA-2などの大型モデルを効果的に解毒できることが示された。
さらに、UniDetoxは、異なるモデルにまたがって単一のハイパーパラメータ設定をシームレスに適用できるため、各モデルに対する分離されたハイパーパラメータチューニングの必要性を排除している。
さらに、解毒テキストの分析により、政治的に偏りのある内容の減少が明らかとなり、LLMの効果的な解毒に必要な属性についての洞察が得られる。
関連論文リスト
- SynthDetoxM: Modern LLMs are Few-Shot Parallel Detoxification Data Annotators [61.82799141938912]
既存の多言語テキストデトックス化へのアプローチは、並列多言語データセットの不足によって妨げられている。
本稿では,手動で収集・合成した多言語並列テキストデトックス化データセットであるSynthDetoxMを紹介する。
論文 参考訳(メタデータ) (2025-02-10T12:30:25Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Model Editing as a Robust and Denoised variant of DPO: A Case Study on Toxicity [6.786565820048478]
本稿では,無調音アライメントの代替であるProFSを導入し,毒性低減のユースケースでその効果を実証する。
ProFSはモデルパラメータ空間内の有毒な部分空間を特定し、検出された部分空間を投影することでモデル毒性を低減する。
我々は, ProFS が DPO よりもサンプリング効率が高いことを示し,さらにノイズの多いデータに対するロバスト性を示す。
論文 参考訳(メタデータ) (2024-05-22T20:08:48Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - DetoxLLM: A Framework for Detoxification with Explanations [25.174878638472254]
最初の包括的エンドツーエンドデトキシフィケーションフレームワークであるDetoxLLMを提案する。
まず,マルチステップデータ処理と生成戦略を適用したクロスプラットフォーム擬似並列コーパスを提案する。
我々の脱毒モデルは、人間に注釈付き並列コーパスで訓練されたSoTAモデルより優れていることを示す。
論文 参考訳(メタデータ) (2024-02-25T01:56:47Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。