論文の概要: Detoxify Language Model Step-by-Step
- arxiv url: http://arxiv.org/abs/2308.08295v1
- Date: Wed, 16 Aug 2023 11:50:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-17 13:44:23.389571
- Title: Detoxify Language Model Step-by-Step
- Title(参考訳): Detoxify言語モデルステップバイステップ
- Authors: Zecheng Tang, Keyan Zhou, Pinzheng Wang, Yuyang Ding, Juntao Li,
Minzhang
- Abstract要約: 脱トキシ化過程を異なるサブステップに分解し, 脱トキシ化過程は入力段階に集中し, 続く連続生成は非毒性プロンプトに基づく。
また,上述のサブステップを順序的に接続するデトックスチェーンを設計することにより,LSMの強い推論能力を校正する。
- 参考スコア(独自算出の注目度): 26.313009827367093
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detoxification for LLMs is challenging since it requires models to avoid
generating harmful content while maintaining the generation capability. To
ensure the safety of generations, previous detoxification methods detoxify the
models by changing the data distributions or constraining the generations from
different aspects in a single-step manner. However, these approaches will
dramatically affect the generation quality of LLMs, e.g., discourse coherence
and semantic consistency, since language models tend to generate along the
toxic prompt while detoxification methods work in the opposite direction. To
handle such a conflict, we decompose the detoxification process into different
sub-steps, where the detoxification is concentrated in the input stage and the
subsequent continual generation is based on the non-toxic prompt. Besides, we
also calibrate the strong reasoning ability of LLMs by designing a Detox-Chain
to connect the above sub-steps in an orderly manner, which allows LLMs to
detoxify the text step-by-step. Automatic and human evaluation on two
benchmarks reveals that by training with Detox-Chain, six LLMs scaling from 1B
to 33B can obtain significant detoxification and generation improvement. Our
code and data are available at https://github.com/CODINNLG/Detox-CoT. Warning:
examples in the paper may contain uncensored offensive content.
- Abstract(参考訳): LLMのデトックス化は、生成能力を維持しながら有害なコンテンツの生成を避けるためにモデルを必要とするため、難しい。
世代間の安全性を確保するため、データ分布を変化させたり、異なる側面から世代を制約したりして、1ステップでモデルをデトックス化する。
しかし、これらのアプローチは、言語モデルが有害なプロンプトに沿って生成されがちであり、非毒化手法が反対方向に働くため、言論コヒーレンスや意味的一貫性といったllmの生成品質に劇的に影響を及ぼす。
このような対立に対処するため, 脱トキシ化過程を異なるサブステップに分解し, 脱トキシ化を入力段階に集中させ, 続く連続生成を非毒性プロンプトに基づいて行う。
さらに,上記のサブステップを順序的に接続するdetoxチェーンを設計することで,llmの強力な推論能力を最適化し,テキストのステップバイステップ化を可能にした。
Detox-Chain によるトレーニングにより,1B から 33B までの6つの LLM のスケーリングにより,デトキシ化と生成の大幅な向上が得られた。
コードとデータはhttps://github.com/CODINNLG/Detox-CoT.comで公開されています。
警告: 論文の例には、無検閲の攻撃的内容が含まれている可能性がある。
関連論文リスト
- Large Language Models can be Strong Self-Detoxifiers [82.6594169242814]
SASA(Self-disciplined Autoregressive Smpling)は、大規模言語モデル(LLM)の毒性低減のための軽量制御復号アルゴリズムである。
SASAは、自己回帰サンプリング戦略を調整することにより、電流出力のマージンを追跡し、有害な部分空間から世代を分離する。
Llama-3.1-Instruct (8B), Llama-2 (7B), GPT2-L model with the RealToxicityPrompts, BOLD, and AttaQ benchmarks。
論文 参考訳(メタデータ) (2024-10-04T17:45:15Z) - DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Parameter-Efficient Detoxification with Contrastive Decoding [78.5124331048714]
Detoxification Generator (DETOXIGEN) は、不要なスタイルから退避する推論時間アルゴリズムである。
実際の生成では、トレーニングされたデトキシファイタを使用して、生成元が各デコードステップでコントラストする好ましくないトークンを生成する。
生成品質を損なうことなく,従来のデトキシフィケーション指標のアプローチを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2024-01-13T01:46:20Z) - CFL: Causally Fair Language Models Through Token-level Attribute
Controlled Generation [5.210143170392524]
本稿では,平均処理効果(ATE)スコアと反ファクト改善を用いたテキスト生成タスクにおける言語モデル(LM)の属性を制御する手法を提案する。
本手法は, LMデトックス化の文脈で検討し, 予め学習したLMをプラグアンドプレイで解毒するためのCausally Fair Language (CFL) アーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-01T06:13:51Z) - Language Model Detoxification in Dialogue with Contextualized Stance
Control [18.30723730898435]
言語モデル解毒に関するこれまでの研究は、文脈を考慮せずに世代自体の毒性(自己毒性)を減らすことに重点を置いてきた。
本稿では,文脈依存的解毒を行う新しい制御手法を提案する。
実験の結果,提案手法は,基礎となるLMの自己毒性を低く保ちつつ,文脈依存型姿勢制御戦略を効果的に学習できることが示唆された。
論文 参考訳(メタデータ) (2023-01-25T00:47:28Z) - Detoxifying Language Models with a Toxic Corpus [16.7345472998388]
毒性を減らすため, 有害コーパスを添加資源として利用することを提案する。
その結果, 有害コーパスは, 言語生成過程の毒性を大幅に低下させる可能性が示唆された。
論文 参考訳(メタデータ) (2022-04-30T18:25:18Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Bridging the Gap Between Clean Data Training and Real-World Inference
for Spoken Language Understanding [76.89426311082927]
既存のモデルはクリーンデータに基づいてトレーニングされ、クリーンデータトレーニングと現実世界の推論の間にtextitgapが発生する。
本稿では,良質なサンプルと低品質のサンプルの両方が類似ベクトル空間に埋め込まれた領域適応法を提案する。
広く使用されているデータセット、スニップス、および大規模な社内データセット(1000万のトレーニング例)に関する実験では、この方法は実世界の(騒々しい)コーパスのベースラインモデルを上回るだけでなく、堅牢性、すなわち、騒々しい環境下で高品質の結果を生み出すことを実証しています。
論文 参考訳(メタデータ) (2021-04-13T17:54:33Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。