論文の概要: Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model
- arxiv url: http://arxiv.org/abs/2506.01266v1
- Date: Mon, 02 Jun 2025 02:36:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.014486
- Title: Detoxification of Large Language Models through Output-layer Fusion with a Calibration Model
- Title(参考訳): 校正モデルを用いた出力層融合による大規模言語モデルの解毒
- Authors: Yuanhe Tian, Mingjie Deng, Guoqing Jin, Yan Song,
- Abstract要約: 既存のLarge Language Model (LLM) の解毒法は、大規模な非毒性または人為的な嗜好データに基づく訓練に依存している。
生成パイプラインの軽量な介入により目標LSMの解毒過程を導出する,コンパクトで事前訓練された校正モデルを提案する。
- 参考スコア(独自算出の注目度): 15.394714537797183
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Existing approaches for Large language model (LLM) detoxification generally rely on training on large-scale non-toxic or human-annotated preference data, designing prompts to instruct the LLM to generate safe content, or modifying the model parameters to remove toxic information, which are computationally expensive, lack robustness, and often compromise LLMs' fluency and contextual understanding. In this paper, we propose a simple yet effective approach for LLM detoxification, which leverages a compact, pre-trained calibration model that guides the detoxification process of a target LLM via a lightweight intervention in its generation pipeline. By learning a detoxified embedding space from non-toxic data, the calibration model effectively steers the LLM away from generating harmful content. This approach only requires a one-time training of the calibration model that is able to be seamlessly applied to multiple LLMs without compromising fluency or contextual understanding. Experiment results on the benchmark dataset demonstrate that our approach reduces toxicity while maintaining reasonable content expression.
- Abstract(参考訳): 既存の大規模言語モデル(LLM)のデトキシフィケーションのアプローチは、一般に大規模な非毒性または人間による注釈付き嗜好データのトレーニングに頼っており、LLMに安全なコンテンツを生成するよう指示するプロンプトを設計したり、あるいはモデルパラメータを変更して、計算コストが高く、堅牢性に欠け、しばしばLLMの流布や文脈理解を損なうような有害な情報を除去する。
本稿では,LLMの減毒処理を簡易かつ効果的に行う方法を提案する。このモデルでは,LLMの減毒処理を,生成パイプラインへの軽量な介入によりガイドする,コンパクトで事前訓練された校正モデルを用いる。
非毒性データから解毒埋め込み空間を学習することにより、キャリブレーションモデルはLLMが有害な内容を生成するのを効果的に回避する。
このアプローチでは、複数のLSMにシームレスに適用できるキャリブレーションモデルの1回のトレーニングしか必要としない。
評価実験の結果,本手法は合理的なコンテンツ表現を維持しながら毒性を低下させることが示された。
関連論文リスト
- LLM-Lasso: A Robust Framework for Domain-Informed Feature Selection and Regularization [59.75242204923353]
LLM-Lassoは大規模言語モデル(LLM)を利用してラッソ回帰における特徴選択を導くフレームワークである。
LLMは各特徴に対してペナルティ因子を生成し、単純でチューニング可能なモデルを用いてラスソペナルティの重みに変換される。
LLMによりより関連づけられた特徴は、より低い罰を受け、最終モデルに保持される可能性を高める。
論文 参考訳(メタデータ) (2025-02-15T02:55:22Z) - Attribute Controlled Fine-tuning for Large Language Models: A Case Study on Detoxification [76.14641982122696]
本稿では,属性制御付き大規模言語モデル(LLM)の制約学習スキーマを提案する。
提案手法は, ベンチマーク上での競合性能と毒性検出タスクを達成しながら, 不適切な応答を少ないLCMに導出することを示す。
論文 参考訳(メタデータ) (2024-10-07T23:38:58Z) - Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - Model Surgery: Modulating LLM's Behavior Via Simple Parameter Editing [63.20133320524577]
パラメータの小さなサブセットを編集することで、大きな言語モデル(LLM)の特定の振る舞いを効果的に調節できることを示す。
我々の手法は、RealToxicityPromptsデータセットで最大90.0%の毒性を減少させ、ToxiGenで49.2%を達成する。
論文 参考訳(メタデータ) (2024-07-11T17:52:03Z) - Detoxifying Large Language Models via Knowledge Editing [57.0669577257301]
本稿では,Large Language Models (LLM) のデトックス化のための知識編集手法について検討する。
我々は、強力な攻撃プロンプトを持つ9つの安全でないカテゴリをカバーするベンチマーク、SafeEditを構築した。
いくつかの知識編集手法を用いて実験を行い、知識編集がLLMを解毒する可能性を示し、汎用性能に限られた影響を与えていることを示す。
論文 参考訳(メタデータ) (2024-03-21T15:18:30Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Pareto Optimal Learning for Estimating Large Language Model Errors [12.21899680905672]
大規模言語モデル(LLM)は多くのアプリケーションで印象的な能力を示している。
複数の情報ソースを統合することで,LSM応答における誤り確率を推定するリスクスコアを生成する手法を提案する。
論文 参考訳(メタデータ) (2023-06-28T21:11:15Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。