論文の概要: Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots
- arxiv url: http://arxiv.org/abs/2307.09579v1
- Date: Fri, 14 Jul 2023 03:58:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-23 11:56:25.562123
- Title: Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots
- Title(参考訳): オープンドメインチャットボットにおけるマルチターントックス挙動の理解
- Authors: Bocheng Chen, Guangjing Wang, Hanqing Guo, Yuanda Wang, Qiben Yan
- Abstract要約: 新しい攻撃である毒物ボットは、多ターン会話において有毒な反応を生成するために開発された。
有害なボットは、産業と研究者の両方が会話における有害な反応を検出し緩和する方法を開発するために使用できる。
- 参考スコア(独自算出の注目度): 8.763670548363443
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent advances in natural language processing and machine learning have led
to the development of chatbot models, such as ChatGPT, that can engage in
conversational dialogue with human users. However, the ability of these models
to generate toxic or harmful responses during a non-toxic multi-turn
conversation remains an open research question. Existing research focuses on
single-turn sentence testing, while we find that 82\% of the individual
non-toxic sentences that elicit toxic behaviors in a conversation are
considered safe by existing tools. In this paper, we design a new attack,
\toxicbot, by fine-tuning a chatbot to engage in conversation with a target
open-domain chatbot. The chatbot is fine-tuned with a collection of crafted
conversation sequences. Particularly, each conversation begins with a sentence
from a crafted prompt sentences dataset. Our extensive evaluation shows that
open-domain chatbot models can be triggered to generate toxic responses in a
multi-turn conversation. In the best scenario, \toxicbot achieves a 67\%
activation rate. The conversation sequences in the fine-tuning stage help
trigger the toxicity in a conversation, which allows the attack to bypass two
defense methods. Our findings suggest that further research is needed to
address chatbot toxicity in a dynamic interactive environment. The proposed
\toxicbot can be used by both industry and researchers to develop methods for
detecting and mitigating toxic responses in conversational dialogue and improve
the robustness of chatbots for end users.
- Abstract(参考訳): 自然言語処理と機械学習の最近の進歩は、チャットgptのようなチャットボットモデルの開発につながった。
しかしながら、これらのモデルが非毒性多ターン会話において有害または有害な応答を生成する能力は、未解決の研究課題である。
既存の研究では単ターン文のテストに焦点が当てられているが、会話中の有毒な行動を誘発する個々の非有毒文の82\%は、既存のツールによって安全であると考えられている。
本稿では、チャットボットを微調整して、ターゲットのオープンドメインチャットボットと対話させることにより、新たな攻撃である \toxicbotをデザインする。
チャットボットは、製作された会話シーケンスのコレクションで微調整される。
特に、各会話は、手作りのプロンプト文データセットからの文から始まる。
広範に評価した結果,マルチターン会話において,オープンドメインチャットボットモデルが有害反応を誘発する可能性が示唆された。
最良のシナリオでは、 \toxicbot は 67\% のアクティベーション率を達成している。
微調整段階の会話シーケンスは、会話の毒性を引き起こすのに役立ち、攻撃は2つの防御方法をバイパスすることができる。
本研究は,動的な対話環境におけるチャットボットの毒性について,さらなる研究が必要であることを示唆する。
提案する \toxicbot は,対話における有害反応の検出と緩和のための手法を開発し,エンドユーザーのためのチャットボットの堅牢性を向上させるために,業界と研究者の両方が利用できる。
関連論文リスト
- LLM Roleplay: Simulating Human-Chatbot Interaction [52.03241266241294]
本研究では,人間とチャットボットの対話をシミュレートする多元多元対話を自動生成する,目標指向のペルソナに基づく手法を提案する。
本手法は,人間とチャットボットの対話を高い相違率でシミュレートすることができる。
論文 参考訳(メタデータ) (2024-07-04T14:49:46Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - PLACES: Prompting Language Models for Social Conversation Synthesis [103.94325597273316]
我々は、プロンプトを用いてソーシャルな会話データセットを合成するために、専門家による会話の小さなセットをコンテキスト内例として使用します。
人工会話の徹底的な評価を,人間による会話と比較して行った。
論文 参考訳(メタデータ) (2023-02-07T05:48:16Z) - Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots [24.84440998820146]
本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
論文 参考訳(メタデータ) (2022-09-07T20:45:41Z) - Neural Generation Meets Real People: Building a Social, Informative
Open-Domain Dialogue Agent [65.68144111226626]
Chirpy Cardinalは、情報と会話の両方をねらっている。
ユーザーとボットの両方を交互に会話に駆り立てる。
Chirpy Cardinalは、Alexa Prize Socialbot Grand Challengeで9つのボットのうち2位にランクインした。
論文 参考訳(メタデータ) (2022-07-25T09:57:23Z) - Evaluator for Emotionally Consistent Chatbots [2.8348950186890467]
最新の研究は、文脈コヒーレンス、言語流布、応答の多様性、対話間の論理的自己整合性についてのみ評価されている。
本研究は,チャットボットの感情的一貫性を決定するための評価器のトレーニングを提案する。
論文 参考訳(メタデータ) (2021-12-02T21:47:29Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Addressing Inquiries about History: An Efficient and Practical Framework
for Evaluating Open-domain Chatbot Consistency [28.255324166852535]
整合性評価のためのAIH(Addressing Inquiries about History)フレームワークを提案する。
会話の段階では、AIHは対話履歴に関する適切な質問に対処し、チャットボットに歴史的な事実や意見を再宣言する。
矛盾認識段階では、人間の判断または自然言語推論(NLI)モデルを用いて、質問に対する回答が歴史と矛盾しているかどうかを認識することができる。
論文 参考訳(メタデータ) (2021-06-04T03:04:13Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - Spot The Bot: A Robust and Efficient Framework for the Evaluation of
Conversational Dialogue Systems [21.36935947626793]
emphSpot ボットは人間とボットの会話をボット間の会話に置き換える。
人間の判断は、それが人間であるかどうかに関わらず、会話において各実体に注釈を付けるだけである。
emphSurvival Analysisは、人間のような行動を最も長く維持できるボットを計測する。
論文 参考訳(メタデータ) (2020-10-05T16:37:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。