論文の概要: Test-Time Detoxification without Training or Learning Anything
- arxiv url: http://arxiv.org/abs/2602.02498v1
- Date: Wed, 14 Jan 2026 11:54:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 02:03:42.394313
- Title: Test-Time Detoxification without Training or Learning Anything
- Title(参考訳): トレーニングや学習を伴わないテスト時間の解毒
- Authors: Baturay Saglam, Dionysis Kalogerias,
- Abstract要約: 大規模な言語モデルでは、良心的な入力であっても有害なテキストや不適切なテキストを生成し、大規模にデプロイされた場合のリスクを生成することができる。
入力埋め込みに対する完了毒性の勾配を近似する試験時間手順を導入する。
これは、入力埋め込みへのアクセスのみを必要とするゼロ階最適化、毒性スコアリング機能、モデルの前方評価によって達成される。
- 参考スコア(独自算出の注目度): 3.9202238580555417
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models can produce toxic or inappropriate text even for benign inputs, creating risks when deployed at scale. Detoxification is therefore important for safety and user trust, particularly when we want to reduce harmful content without sacrificing the model's generation quality. Many existing approaches rely on model retraining, gradients, or learned auxiliary components, which can be costly and may not transfer across model families or to truly black-box settings. We introduce a test-time procedure that approximates the gradient of completion toxicity with respect to the input embeddings and uses a small number of descent steps to steer generation toward less toxic continuations. This is achieved with zeroth-order optimization that requires only access to input embeddings, a toxicity scoring function, and forward evaluations of the model. Empirically, the approach delivers robust toxicity reductions across models and prompts and, in most settings, achieves the best overall toxicity-quality trade-off. More broadly, our work positions word embeddings as effective control variables and encourages wider use of black-box optimization to guide autoregressive language models toward scalable, safer text generation, without requiring any training or access to intermediate computations.
- Abstract(参考訳): 大規模な言語モデルでは、良心的な入力であっても有害なテキストや不適切なテキストを生成し、大規模にデプロイされた場合のリスクを生成することができる。
したがって、特にモデル生成品質を犠牲にすることなく有害なコンテンツを削減したい場合、デトックス化は安全性とユーザ信頼にとって重要である。
多くの既存アプローチは、モデル再トレーニング、勾配、学習補助コンポーネントに依存しており、コストがかかり、モデルファミリや真にブラックボックス設定に転送できない可能性がある。
入力埋め込みに関して, 完成毒性の勾配を近似した試験時間手順を導入し, 少ない毒性継続に向けて, 少数の降下ステップを用いて発電を行う。
これは、入力埋め込みへのアクセスのみを必要とするゼロ階最適化、毒性スコアリング機能、モデルの前方評価によって達成される。
経験的に、このアプローチはモデルとプロンプト間で堅牢な毒性低下をもたらし、ほとんどの環境では、全体的な毒性品質のトレードオフを最高のものにします。
より広範に、我々の作業は単語埋め込みを効果的な制御変数として位置づけ、トレーニングや中間計算へのアクセスを必要とせず、自動回帰言語モデルをスケーラブルで安全なテキスト生成へ導くためにブラックボックス最適化を広く活用することを奨励している。
関連論文リスト
- Cleansing the Artificial Mind: A Self-Reflective Detoxification Framework for Large Language Models [14.566005698357747]
大言語モデル(LLM)は、顕著な生成能力と自己調節機構の出現を明らかにしている。
我々は, LLMの本来の能力を利用して, 有害な内容を検出する, 完全自己反射脱毒フレームワークを導入する。
我々の発見は、真の自己統制型言語モデルの可能性を強調し、より責任と倫理的に導かれたテキスト生成システムへの道を開いた。
論文 参考訳(メタデータ) (2026-01-16T21:01:26Z) - Detoxifying Large Language Models via Autoregressive Reward Guided Representation Editing [77.75609817898035]
大規模言語モデル(LLM)は、様々なタスクにわたって印象的なパフォーマンスを示してきたが、有害なコンテンツの生成には弱いままである。
textscAutoregressive textscReward textscGuided textscRe presentation textscEditing (ARGRE)を提案する。
ARGREは遅延表現空間内の毒性遷移を明示的にモデル化し、安定かつ正確な報酬誘導編集を可能にする。
論文 参考訳(メタデータ) (2025-09-24T03:40:32Z) - Adversarial Robustification via Text-to-Image Diffusion Models [56.37291240867549]
アドリラルロバスト性は、ニューラルネットワークをエンコードする難しい性質として伝統的に信じられてきた。
データを使わずに敵の堅牢性を実現するために,スケーラブルでモデルに依存しないソリューションを開発した。
論文 参考訳(メタデータ) (2024-07-26T10:49:14Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Contrastive Perplexity for Controlled Generation: An Application in Detoxifying Large Language Models [21.341749351654453]
大規模言語モデル(LLM)による有害なコンテンツの生成は、言語技術の安全なデプロイにおいて重要な課題である。
プロトタイプに基づくコントラッシブ・パープレキシティを目標とした微調整 LLM による暗黙的知識編集とテキスト生成のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-16T16:49:39Z) - Goodtriever: Adaptive Toxicity Mitigation with Retrieval-augmented
Models [11.805944680474823]
Goodtrieverは、現在の最先端の毒性軽減と一致するフレキシブルな方法論である。
復号時間に検索ベースのアプローチを導入することで、Goodtrieverは毒性制御されたテキスト生成を可能にする。
論文 参考訳(メタデータ) (2023-10-11T15:30:35Z) - Meta-Learning Online Adaptation of Language Models [88.8947656843812]
大規模言語モデルは、そのパラメータにおける驚くほど広い世界の知識を符号化する。
しかし、静的言語モデルの知識は時代遅れになり、モデルの効果的な「シェルフライフ」が制限される。
論文 参考訳(メタデータ) (2023-05-24T11:56:20Z) - Exploring the Limits of Domain-Adaptive Training for Detoxifying
Large-Scale Language Models [84.30718841659531]
言語モデルの毒性を低減するために,ドメイン適応型学習について検討する。
トレーニングコーパスでは, LMの生成能力を活用することを提案する。
次に,126Mから530Bまでのパラメータサイズを持つLMを包括的に研究した。
論文 参考訳(メタデータ) (2022-02-08T22:10:40Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。