論文の概要: Language Model Detoxification in Dialogue with Contextualized Stance
Control
- arxiv url: http://arxiv.org/abs/2301.10368v1
- Date: Wed, 25 Jan 2023 00:47:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-26 16:16:23.107541
- Title: Language Model Detoxification in Dialogue with Contextualized Stance
Control
- Title(参考訳): コンテキスト化スタンス制御を用いた対話における言語モデルデトキソフィケーション
- Authors: Jing Qian, Xifeng Yan
- Abstract要約: 言語モデル解毒に関するこれまでの研究は、文脈を考慮せずに世代自体の毒性(自己毒性)を減らすことに重点を置いてきた。
本稿では,文脈依存的解毒を行う新しい制御手法を提案する。
実験の結果,提案手法は,基礎となるLMの自己毒性を低く保ちつつ,文脈依存型姿勢制御戦略を効果的に学習できることが示唆された。
- 参考スコア(独自算出の注目度): 18.30723730898435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To reduce the toxic degeneration in a pretrained Language Model (LM),
previous work on Language Model detoxification has focused on reducing the
toxicity of the generation itself (self-toxicity) without consideration of the
context. As a result, a type of implicit offensive language where the
generations support the offensive language in the context is ignored. Different
from the LM controlling tasks in previous work, where the desired attributes
are fixed for generation, the desired stance of the generation depends on the
offensiveness of the context. Therefore, we propose a novel control method to
do context-dependent detoxification with the stance taken into consideration.
We introduce meta prefixes to learn the contextualized stance control strategy
and to generate the stance control prefix according to the input context. The
generated stance prefix is then combined with the toxicity control prefix to
guide the response generation. Experimental results show that our proposed
method can effectively learn the context-dependent stance control strategies
while keeping a low self-toxicity of the underlying LM.
- Abstract(参考訳): 事前訓練された言語モデル(LM)における有害な変性を減らすため、従来の言語モデル解毒の研究は、文脈を考慮せずに生成体自体の毒性(自己毒性)を減少させることに重点を置いてきた。
その結果、世代が文脈における攻撃言語をサポートする暗黙の攻撃言語の種類は無視される。
所望の属性が生成のために固定された前の作業におけるLM制御タスクとは異なり、生成の望ましい姿勢は、コンテキストの攻撃性に依存する。
そこで本研究では,文脈依存的デトキシフィケーションを行うための新しい制御手法を提案する。
文脈化されたスタンス制御戦略を学習し、入力コンテキストに応じてスタンス制御プレフィックスを生成するメタプレフィックスを導入する。
そして、生成されたスタンスプレフィックスを毒性制御プレフィックスと組み合わせて応答生成を誘導する。
実験の結果,提案手法は,基礎となるlmの低自己毒性を維持しつつ,文脈依存的姿勢制御戦略を効果的に学習できることがわかった。
関連論文リスト
- DPP-Based Adversarial Prompt Searching for Lanugage Models [56.73828162194457]
Auto-Regressive Selective Replacement Ascent (ASRA)は、決定点プロセス(DPP)と品質と類似性の両方に基づいてプロンプトを選択する離散最適化アルゴリズムである。
6種類の事前学習言語モデルに対する実験結果から,ASRAによる有害成分の抽出の有効性が示された。
論文 参考訳(メタデータ) (2024-03-01T05:28:06Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Self-Detoxifying Language Models via Toxification Reversal [11.238212967733165]
言語モデル解毒は、事前訓練された言語モデル(PLM)において、攻撃的または有害なコンテンツを生成するリスクを最小限にすることを目的としている。
我々は PLM 自体が "自己退化" を実現するための,より軽量なアプローチを提案する。
本手法は, 負のステアリングプロンプトを前処理することでPLMを効果的に誘導し, 有害な物質を生成できるという観察に基づいて構築された。
論文 参考訳(メタデータ) (2023-10-14T12:51:38Z) - CMD: a framework for Context-aware Model self-Detoxification [22.842468869653818]
テキストの解毒は、有害なコンテンツを生み出す言語モデルのリスクを最小限にすることを目的としている。
既存の解毒法では、解毒効果と生成品質のバランスが取れない。
文脈対応モデル自己解毒(CMD)フレームワークを導入し、文脈と解毒プロセスの両方に注意を払う。
論文 参考訳(メタデータ) (2023-08-16T11:50:38Z) - Language Detoxification with Attribute-Discriminative Latent Space [59.167432249229584]
トランスフォーマーベースの言語モデル(LM)は、自然言語理解タスクにおいて印象的な結果を得た。
また、侮辱、脅し、暴言などの有毒なテキストを生成でき、現実世界の応用を制限できる。
本稿では,属性識別型潜在空間を用いた効果的かつ効率的な言語解毒法を提案する。
論文 参考訳(メタデータ) (2022-10-19T06:54:42Z) - Reward Modeling for Mitigating Toxicity in Transformer-based Language
Models [0.0]
トランスフォーマーベースの言語モデルでは、流動的なテキストを生成し、さまざまな自然言語生成タスクに効率よく適応することができる。
大規模未ラベルのウェブテキストコーパスで事前訓練された言語モデルは、有害な内容の変性や社会的偏見の振る舞いに悩まされていることが示されている。
言語モデルにおける毒性を緩和する強化学習に基づく手法であるReinforce-Detoxifyを提案する。
論文 参考訳(メタデータ) (2022-02-19T19:26:22Z) - Mitigating Biases in Toxic Language Detection through Invariant
Rationalization [70.36701068616367]
性別、人種、方言などの属性に対するバイアスは、毒性検出のためのほとんどのトレーニングデータセットに存在する。
本稿では,論理生成器と予測器から構成されるゲーム理論フレームワークである不変合理化(InvRat)を用いて,特定の構文パターンの素早い相関を除外することを提案する。
本手法は, 語彙属性と方言属性の両方において, 従来のデバイアス法よりも低い偽陽性率を示す。
論文 参考訳(メタデータ) (2021-06-14T08:49:52Z) - Challenges in Automated Debiasing for Toxic Language Detection [81.04406231100323]
バイアスド・アソシエーションは、有害な言語を検出するための分類器の開発において課題となっている。
我々は最近,有害な言語検出に適用されたテキスト分類データセットとモデルに対するデバイアス法について検討した。
我々の焦点は語彙(例えば、誓い言葉、スラー、アイデンティティの言及)と方言マーカー(特にアフリカ系アメリカ人の英語)である。
論文 参考訳(メタデータ) (2021-01-29T22:03:17Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - A Controllable Model of Grounded Response Generation [122.7121624884747]
現在のエンドツーエンドのニューラルネットワークモデルは、応答生成プロセスにセマンティックコントロールを課す柔軟性を本質的に欠いている。
我々は制御可能な接地応答生成(CGRG)と呼ばれるフレームワークを提案する。
このフレームワークを用いることで、会話のようなRedditデータセットでトレーニングされた、新しいインダクティブアテンション機構を備えたトランスフォーマーベースのモデルが、強力な生成ベースラインを上回っていることを示す。
論文 参考訳(メタデータ) (2020-05-01T21:22:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。