論文の概要: Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation
- arxiv url: http://arxiv.org/abs/2212.01810v1
- Date: Sun, 4 Dec 2022 12:23:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 16:40:37.735313
- Title: Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation
- Title(参考訳): 制御可能な逆生成による対話安全のための高帰納的文脈の構築
- Authors: Zhexin Zhang, Jiale Cheng, Hao Sun, Jiawen Deng, Fei Mi, Yasheng Wang,
Lifeng Shang, Minlie Huang
- Abstract要約: そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
- 参考スコア(独自算出の注目度): 65.48908724440047
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large pretrained language models can easily produce toxic or biased content,
which is prohibitive for practical use. In order to detect such toxic
generations, existing methods rely on templates, real-world data extraction,
crowdsourcing workers, or automatic generation to construct adversarial
contexts that are likely to induce toxic generations. However, what type of
context is more likely to induce unsafe responses is still under-explored. In
this paper, we identify that context toxicity and context category (e.g.,
\textit{profanity}, \textit{insult}, \textit{drugs}, etc.) are two important
factors to cause safety issues in response generation. Hence, we propose a
method called \emph{reverse generation} to construct adversarial contexts
conditioned on a given response, with the flexibility to control category,
toxicity level, and inductivity of the generated contexts. Via reverse
generation, we augment the existing BAD dataset and construct a new dataset
BAD+ which contains more than 120K diverse and highly inductive contexts in 12
categories. We test three popular pretrained dialogue models (Blender,
DialoGPT, and Plato2) and find that BAD+ can largely expose their safety
problems. Furthermore, we show that BAD+ can greatly enhance the safety of
generation and reveal the key factors of safety improvement. Our code and
dataset is available at \url{https://github.com/thu-coai/Reverse_Generation}.
- Abstract(参考訳): 大規模な事前訓練された言語モデルは、有毒または偏見のあるコンテンツを容易に生成することができる。
このような有害な世代を検出するために、既存の手法はテンプレート、現実世界のデータ抽出、クラウドソーシングワーカー、自動生成に依存し、有害な世代を引き起こす可能性のある敵対的なコンテキストを構築する。
しかしながら、どのタイプのコンテキストが安全でない応答を誘発する可能性が高いかはまだ未検討である。
本稿では,コンテキスト毒性とコンテキストカテゴリ(例えば, \textit{profanity}, \textit{insult}, \textit{drugs}など)を特定する。
) 応答生成において安全性の問題を引き起こす重要な要因が2つある。
そこで本研究では, カテゴリー, 毒性レベル, および生成したコンテキストの帰納率を制御できる柔軟性を持って, 与えられた応答を条件とした逆文脈を構成する方法である \emph{reverse generation} を提案する。
逆生成により、既存のBADデータセットを拡張し、12のカテゴリで120K以上の多様性と高帰納的コンテキストを含む新しいBAD+データセットを構築します。
我々は3つの一般的な事前学習された対話モデル(blender、dialogpt、plato2)をテストし、bad+が安全性の問題の多くを露呈できることを発見した。
さらに,BAD+は生成の安全性を大幅に向上させ,安全性向上の鍵となる要因を明らかにする。
コードとデータセットは \url{https://github.com/thu-coai/Reverse_Generation} で公開しています。
関連論文リスト
- Safe Text-to-Image Generation: Simply Sanitize the Prompt Embedding [13.481343482138888]
視覚に依存しない安全な生成フレームワーク Embedding Sanitizer (ES) を提案する。
ESは、迅速な埋め込みから不適切な概念を消去することに焦点を当て、安全な生成のためにモデルをガイドするために、衛生的な埋め込みを使用する。
ESは、生成品質を維持しつつ、解釈性と制御性の観点から既存の安全ガードを著しく上回っている。
論文 参考訳(メタデータ) (2024-11-15T16:29:02Z) - Toxic Subword Pruning for Dialogue Response Generation on Large Language Models [51.713448010799986]
toxPrune (textbfToxic Subword textbfPruning) を提案する。
ToxPruneは、明らかに対話応答生成のタスクにおいて、有害言語モデルNSFW-3Bを同時に改善する。
論文 参考訳(メタデータ) (2024-10-05T13:30:33Z) - Latent Guard: a Safety Framework for Text-to-image Generation [64.49596711025993]
既存の安全対策は、容易に回避できるテキストブラックリストや有害なコンテンツ分類に基づいている。
テキスト・ツー・イメージ生成の安全性向上を目的としたフレームワークであるLatent Guardを提案する。
ブラックリストベースのアプローチにインスパイアされたLatent Guardは、T2Iモデルのテキストエンコーダの上に潜在空間を学習し、有害な概念の存在を確認することができる。
論文 参考訳(メタデータ) (2024-04-11T17:59:52Z) - Fine-Grained Detoxification via Instance-Level Prefixes for Large
Language Models [26.474136481185724]
インスタンスレベルのプレフィックス(FGDILP)によるきめ細かいデトックス化は、有害なテキストを余分なコストで軽減する。
FGDILPは、正のプレフィックス予測プロンプトを用いて、注意空間における文脈化された表現と対比する。
我々は、FGDILPが発話レベルと文脈レベルの両方において有害性に関して制御されたテキスト生成を可能にすることを検証した。
論文 参考訳(メタデータ) (2024-02-23T09:04:48Z) - Unlocking Anticipatory Text Generation: A Constrained Approach for Large Language Models Decoding [75.06872859716049]
大規模言語モデル(LLM)は、テキスト生成の強力な能力を示している。
毒性や幻覚などの望ましくない行動が現れることがある。
将来制約付き生成問題としてテキスト生成の形式化を提案する。
論文 参考訳(メタデータ) (2023-12-11T06:35:33Z) - Learn What NOT to Learn: Towards Generative Safety in Chatbots [40.8106410437709]
正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
論文 参考訳(メタデータ) (2023-04-21T18:59:06Z) - Sketch and Refine: Towards Faithful and Informative Table-to-Text
Generation [58.320248632121476]
自己回帰世代と非自己回帰世代(SANA)を組み合わせた新しい2段階法を提案する。
提案手法は,(1)ソーステーブルからキートークンを選択するための自己回帰ポインタネットワークを用いた骨格生成,(2)反復挿入と削除操作によるテキスト生成のための編集ベースの非自己回帰生成モデルを含む。
骨格から厳しい制約を統合することで、非自己回帰モデルはソーステーブル上の生成のカバレッジを改善し、その忠実性を高める。
論文 参考訳(メタデータ) (2021-05-31T08:18:13Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。