論文の概要: Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots
- arxiv url: http://arxiv.org/abs/2209.03463v1
- Date: Wed, 7 Sep 2022 20:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-09 13:31:44.420910
- Title: Why So Toxic? Measuring and Triggering Toxic Behavior in Open-Domain
Chatbots
- Title(参考訳): なぜ毒なのか?
オープンドメインチャットボットにおける毒性挙動の測定とトリガー
- Authors: Wai Man Si, Michael Backes, Jeremy Blackburn, Emiliano De Cristofaro,
Gianluca Stringhini, Savvas Zannettou, Yand Zhang
- Abstract要約: 本稿では,チャットボットの毒性を定量的に測定する。
一般に利用可能なチャットボットは、有害なクエリを入力した場合、有害な応答を提供する傾向がある。
そこで我々は,GPT-2を微調整して非有害なクエリを生成する攻撃ToxicBuddyの設計と実験を行った。
- 参考スコア(独自算出の注目度): 42.0448117924886
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Chatbots are used in many applications, e.g., automated agents, smart home
assistants, interactive characters in online games, etc. Therefore, it is
crucial to ensure they do not behave in undesired manners, providing offensive
or toxic responses to users. This is not a trivial task as state-of-the-art
chatbot models are trained on large, public datasets openly collected from the
Internet. This paper presents a first-of-its-kind, large-scale measurement of
toxicity in chatbots. We show that publicly available chatbots are prone to
providing toxic responses when fed toxic queries. Even more worryingly, some
non-toxic queries can trigger toxic responses too. We then set out to design
and experiment with an attack, ToxicBuddy, which relies on fine-tuning GPT-2 to
generate non-toxic queries that make chatbots respond in a toxic manner. Our
extensive experimental evaluation demonstrates that our attack is effective
against public chatbot models and outperforms manually-crafted malicious
queries proposed by previous work. We also evaluate three defense mechanisms
against ToxicBuddy, showing that they either reduce the attack performance at
the cost of affecting the chatbot's utility or are only effective at mitigating
a portion of the attack. This highlights the need for more research from the
computer security and online safety communities to ensure that chatbot models
do not hurt their users. Overall, we are confident that ToxicBuddy can be used
as an auditing tool and that our work will pave the way toward designing more
effective defenses for chatbot safety.
- Abstract(参考訳): チャットボットは、自動化エージェント、スマートホームアシスタント、オンラインゲームにおけるインタラクティブ文字など、多くのアプリケーションで使用されている。
そのため、望ましくない振る舞いをせず、攻撃的、有害な反応をユーザーに与えないことが不可欠である。
最先端のチャットボットモデルは、インターネットからオープンに収集された大規模な公開データセットでトレーニングされているため、これは簡単な作業ではない。
本稿では,チャットボットの毒性を定量的に測定する。
公に利用できるチャットボットは、有害な質問に餌をやると、有害な反応をもたらす可能性が高い。
さらに心配なのは、一部の有害なクエリは有害な応答を引き起こす可能性があることだ。
そこで私たちは、細調整のGPT-2を使ってチャットボットに有害な反応を与える非有害なクエリを生成するToxicBuddyという攻撃を設計し、実験した。
広範な実験結果から,本攻撃は公開チャットボットモデルに対して有効であり,先行研究が提案する手作業による悪意のあるクエリよりも優れていることが示された。
また,有毒バッドに対する3つの防御機構を評価し,チャットボットの有用性に影響を与えるコストで攻撃性能を低下させるか,攻撃の一部緩和にのみ有効であることを示した。
これは、チャットボットモデルがユーザーを傷つけないようにするために、コンピュータセキュリティとオンライン安全コミュニティからのさらなる研究の必要性を強調している。
全体として、ToxicBuddyは監査ツールとして利用でき、チャットボットの安全性のためにより効果的な防御を設計するための道を開くと確信しています。
関連論文リスト
- Dr. Jekyll and Mr. Hyde: Two Faces of LLMs [23.428082923794708]
本研究では,ChatGPTとGeminiを,忠実なアシスタントと一致しない人格特性を持つ複雑なペルソナに擬人化させる。
ペルソナを用いて、禁止された応答が提供され、不正、違法、有害な情報を得ることができることを示す。
同じ原則で、モデルに信頼に値する個人性を解釈させ、そのような攻撃に対してより堅牢にする2つの防衛法を導入する。
論文 参考訳(メタデータ) (2023-12-06T19:07:38Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation [43.356758428820626]
ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
論文 参考訳(メタデータ) (2023-10-26T13:35:41Z) - Evaluating Chatbots to Promote Users' Trust -- Practices and Open
Problems [11.427175278545517]
本稿では,チャットボットのテスト実践について概説する。
ギャップをユーザ信頼の追求におけるオープンな問題として認識する。
サービスや製品のパフォーマンス、ユーザの満足度、社会に対する長期的意図しない結果に関する信頼の問題を緩和するための道筋を概説する。
論文 参考訳(メタデータ) (2023-09-09T22:40:30Z) - Understanding Multi-Turn Toxic Behaviors in Open-Domain Chatbots [8.763670548363443]
新しい攻撃である毒物ボットは、多ターン会話において有毒な反応を生成するために開発された。
有害なボットは、産業と研究者の両方が会話における有害な反応を検出し緩和する方法を開発するために使用できる。
論文 参考訳(メタデータ) (2023-07-14T03:58:42Z) - A Categorical Archive of ChatGPT Failures [47.64219291655723]
OpenAIが開発したChatGPTは、大量のデータを使って訓練され、人間の会話をシミュレートしている。
それは、広範囲の人間の問い合わせに効果的に答える能力のために、大きな注目を集めている。
しかし、ChatGPTの失敗の包括的分析は欠落しており、これが本研究の焦点となっている。
論文 参考訳(メタデータ) (2023-02-06T04:21:59Z) - CheerBots: Chatbots toward Empathy and Emotionusing Reinforcement
Learning [60.348822346249854]
本研究では,複数の共感型チャットボットがユーザの暗黙の感情を理解し,複数の対話のターンに対して共感的に応答する枠組みを提案する。
チャットボットをCheerBotsと呼びます。CheerBotsは検索ベースまたは生成ベースで、深い強化学習によって微調整されます。
共感的態度で反応するため,CheerBotsの学習支援としてシミュレーションエージェントである概念人間モデルを開発し,今後のユーザの感情状態の変化を考慮し,共感を喚起する。
論文 参考訳(メタデータ) (2021-10-08T07:44:47Z) - Put Chatbot into Its Interlocutor's Shoes: New Framework to Learn
Chatbot Responding with Intention [55.77218465471519]
本稿では,チャットボットに人間のような意図を持つための革新的なフレームワークを提案する。
我々のフレームワークには、ガイドロボットと人間の役割を担うインターロケータモデルが含まれていた。
本フレームワークを3つの実験的なセットアップを用いて検討し,4つの異なる指標を用いた誘導ロボットの評価を行い,柔軟性と性能の利点を実証した。
論文 参考訳(メタデータ) (2021-03-30T15:24:37Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。