論文の概要: Learn What NOT to Learn: Towards Generative Safety in Chatbots
- arxiv url: http://arxiv.org/abs/2304.11220v2
- Date: Tue, 25 Apr 2023 08:16:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-26 23:36:04.476139
- Title: Learn What NOT to Learn: Towards Generative Safety in Chatbots
- Title(参考訳): チャットボットにおける生成的安全性を目指して
- Authors: Leila Khalatbari, Yejin Bang, Dan Su, Willy Chung, Saeed Ghadimi,
Hossein Sameti, Pascale Fung
- Abstract要約: 正負の学習信号と負の学習信号の両方から学習することで一般化を高めるために、対照的な損失を生かした「LOT」(Learn NOT to)という新しいフレームワークを提案する。
LOTは毒性を最大4倍に減らし、ベースラインモデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成している。
- 参考スコア(独自算出の注目度): 40.8106410437709
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational models that are generative and open-domain are particularly
susceptible to generating unsafe content since they are trained on web-based
social data. Prior approaches to mitigating this issue have drawbacks, such as
disrupting the flow of conversation, limited generalization to unseen toxic
input contexts, and sacrificing the quality of the dialogue for the sake of
safety. In this paper, we present a novel framework, named "LOT" (Learn NOT
to), that employs a contrastive loss to enhance generalization by learning from
both positive and negative training signals. Our approach differs from the
standard contrastive learning framework in that it automatically obtains
positive and negative signals from the safe and unsafe language distributions
that have been learned beforehand. The LOT framework utilizes divergence to
steer the generations away from the unsafe subspace and towards the safe
subspace while sustaining the flow of conversation. Our approach is memory and
time-efficient during decoding and effectively reduces toxicity while
preserving engagingness and fluency. Empirical results indicate that LOT
reduces toxicity by up to four-fold while achieving four to six-fold higher
rates of engagingness and fluency compared to baseline models. Our findings are
further corroborated by human evaluation.
- Abstract(参考訳): 生成的かつオープンドメインな会話モデルは、Webベースのソーシャルデータで訓練されているため、特に安全でないコンテンツを生成する可能性がある。
この問題を軽減する以前のアプローチには、会話の流れを乱す、有害な入力コンテキストを認識できないような一般化を制限する、安全性のために対話の品質を犠牲にするといった欠点がある。
本稿では,正と負の両方のトレーニング信号から学習することで一般化を促進するために,対照的な損失を生かした「LOT(Learn NOT to)」という新しいフレームワークを提案する。
本手法は,従来学習されてきた安全で安全でない言語分布から,正負の信号を自動的に得るという点で,標準のコントラスト学習フレームワークと異なる。
LOTフレームワークは、会話の流れを保ちながら、安全でない部分空間から安全な部分空間へ世代を誘導するために分岐を利用する。
提案手法は, 復号時の記憶効率と時間効率が向上し, 関与性と流動性を維持しつつ毒性を効果的に低減する。
実験の結果,LOTは基準モデルに比べて4倍から6倍のエンゲージネスとフラエンシを達成し,毒性を最大4倍に低下させることがわかった。
我々の発見は人間の評価によってさらに裏付けられている。
関連論文リスト
- SAFREE: Training-Free and Adaptive Guard for Safe Text-to-Image And Video Generation [65.30207993362595]
安全な生成のための学習/編集に基づく手法は、モデルから有害な概念を取り除くが、いくつかの課題に直面している。
安全なT2IとT2VのためのトレーニングフリーアプローチであるSAFREEを提案する。
テキスト埋め込み空間における有毒な概念の集合に対応する部分空間を検出し、この部分空間から直ちに埋め込みを行う。
論文 参考訳(メタデータ) (2024-10-16T17:32:23Z) - ETA: Evaluating Then Aligning Safety of Vision Language Models at Inference Time [12.160713548659457]
対向的な視覚入力は、容易にVLM防御機構をバイパスすることができる。
本稿では,入力された視覚的内容と出力応答を評価する2相推論時間アライメントフレームワークを提案する。
実験の結果, ETAは無害性, 有用性, 効率の点で, ベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2024-10-09T07:21:43Z) - Improving Dialog Safety using Socially Aware Contrastive Learning [8.503001932363704]
対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-01T09:24:33Z) - Improving the Robustness of Knowledge-Grounded Dialogue via Contrastive
Learning [71.8876256714229]
本稿では,知識ベース対話システムの堅牢性向上を目的とした,エンティティベースのコントラスト学習フレームワークを提案する。
提案手法は,自動評価スコアの点から,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-09T05:16:52Z) - Robust Safety Classifier for Large Language Models: Adversarial Prompt
Shield [7.5520641322945785]
大規模言語モデルの安全性は、敵の攻撃に対する脆弱性のため、依然として重要な懸念事項である。
本稿では,検出精度を向上し,対向プロンプトに対するレジリエンスを示す軽量モデルであるAdversarial Prompt Shield(APS)を紹介する。
また、対戦型トレーニングデータセットを自律的に生成するための新しい戦略を提案する。
論文 参考訳(メタデータ) (2023-10-31T22:22:10Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - Constructing Highly Inductive Contexts for Dialogue Safety through
Controllable Reverse Generation [65.48908724440047]
そこで本稿では,ある応答に条件付けされた逆コンテキストを構築するために,エンフレバース生成と呼ばれる手法を提案する。
我々は,Blender,DialoGPT,Plato2の3種類の事前訓練済み対話モデルをテストする。
論文 参考訳(メタデータ) (2022-12-04T12:23:41Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。