論文の概要: ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation
- arxiv url: http://arxiv.org/abs/2310.17389v1
- Date: Thu, 26 Oct 2023 13:35:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 20:18:59.088403
- Title: ToxicChat: Unveiling Hidden Challenges of Toxicity Detection in
Real-World User-AI Conversation
- Title(参考訳): ToxicChat: 現実のユーザ-AI会話における毒性検出の隠れた課題
- Authors: Zi Lin, Zihan Wang, Yongqi Tong, Yangkun Wang, Yuxin Guo, Yujia Wang,
Jingbo Shang
- Abstract要約: ToxicChatは、オープンソースのチャットボットからの実際のユーザクエリに基づく、新しいベンチマークである。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
- 参考スコア(独自算出の注目度): 43.356758428820626
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite remarkable advances that large language models have achieved in
chatbots, maintaining a non-toxic user-AI interactive environment has become
increasingly critical nowadays. However, previous efforts in toxicity detection
have been mostly based on benchmarks derived from social media content, leaving
the unique challenges inherent to real-world user-AI interactions
insufficiently explored. In this work, we introduce ToxicChat, a novel
benchmark based on real user queries from an open-source chatbot. This
benchmark contains the rich, nuanced phenomena that can be tricky for current
toxicity detection models to identify, revealing a significant domain
difference compared to social media content. Our systematic evaluation of
models trained on existing toxicity datasets has shown their shortcomings when
applied to this unique domain of ToxicChat. Our work illuminates the
potentially overlooked challenges of toxicity detection in real-world user-AI
conversations. In the future, ToxicChat can be a valuable resource to drive
further advancements toward building a safe and healthy environment for user-AI
interactions.
- Abstract(参考訳): チャットボットで大きな言語モデルが達成した驚くべき進歩にもかかわらず、非有害なユーザー-ai対話環境の維持が近年ますます重要になっている。
しかし、従来の毒性検出の取り組みは、ソーシャルメディアコンテンツから派生したベンチマークに基づいており、実際のユーザとAIのインタラクションに固有の固有の課題は十分に調査されていない。
本研究は,オープンソースのチャットボットからの実際のユーザクエリに基づく新しいベンチマークである toxicchat を紹介する。
このベンチマークには、現在の毒性検出モデルが識別するトリッキーな、豊かなニュアンスのある現象が含まれており、ソーシャルメディアの内容との大きなドメイン差を明らかにしている。
既存の毒性データセットに基づいてトレーニングされたモデルの体系的評価は、ToxicChatのこのユニークなドメインに適用した場合の欠点を示している。
我々の研究は、現実世界のユーザ-ai会話における毒性検出の潜在的な難題を照らしている。
将来的には、ToxicChatは、ユーザとAIインタラクションのための安全で健全な環境を構築するためのさらなる進歩を促進する上で、貴重なリソースになり得る。
関連論文リスト
- Exploring ChatGPT for Toxicity Detection in GitHub [5.003898791753481]
しばしば有毒なコメントとして表されるネガティブな会話の頻度は、開発者の幸福と生産性に重大な課題をもたらします。
プロジェクトコミュニケーションにおいてこのような負性性を特定するためには, 自動毒性検出モデルが必要である。
これらのモデルを効果的にトレーニングするには、大規模なソフトウェアエンジニアリング固有の毒性データセットが必要です。
論文 参考訳(メタデータ) (2023-12-20T15:23:00Z) - Enabling High-Level Machine Reasoning with Cognitive Neuro-Symbolic
Systems [67.01132165581667]
本稿では,認知アーキテクチャを外部のニューロシンボリックコンポーネントと統合することにより,AIシステムにおける高レベル推論を実現することを提案する。
本稿では,ACT-Rを中心としたハイブリッドフレームワークについて紹介し,最近の応用における生成モデルの役割について論じる。
論文 参考訳(メタデータ) (2023-11-13T21:20:17Z) - Comprehensive Assessment of Toxicity in ChatGPT [49.71090497696024]
本研究は,ChatGPTの毒性を指導調整データセットを用いて評価する。
創作作業のプロンプトは 有害な反応を 引き起こす確率が 2倍になる
初期の研究で設計された、故意に有害なプロンプトは、もはや有害な反応を生じさせない。
論文 参考訳(メタデータ) (2023-11-03T14:37:53Z) - Revisiting Contextual Toxicity Detection in Conversations [28.465019968374413]
ヒトによる毒性のラベル付けは、一般的に、会話の構造、極性、文脈の話題に影響されている。
本稿では、文脈毒性検出のためのニューラルネットワークを導入して、これらの知見を計算検出モデルに適用することを提案する。
また、このようなモデルが、特にソーシャルメディア領域において、合成データの恩恵を受けることを実証した。
論文 参考訳(メタデータ) (2021-11-24T11:50:37Z) - Toxicity Detection can be Sensitive to the Conversational Context [64.28043776806213]
2種類の毒性ラベルを持つ1万のポストのデータセットを構築し、公開します。
また,新たな課題である文脈感度推定を導入し,コンテキストも考慮された場合,毒性が変化すると認識された投稿を識別することを目的とした。
論文 参考訳(メタデータ) (2021-11-19T13:57:26Z) - Automatic Evaluation and Moderation of Open-domain Dialogue Systems [59.305712262126264]
研究者が悩む長きにわたる課題は、効果的な自動評価指標の欠如である。
本稿では, 対話システム技術チャレンジ10(DSTC10)におけるトラック5で得られたデータ, ベースライン, 結果について述べる。
論文 参考訳(メタデータ) (2021-11-03T10:08:05Z) - RECAST: Enabling User Recourse and Interpretability of Toxicity
Detection Models with Interactive Visualization [16.35961310670002]
本稿では,有害モデルの予測を可視化するインタラクティブなオープンソースWebツールであるRECASTについて紹介する。
その結果,RECASTはモデルにより検出された毒性の低減に有効であることが判明した。
このことは、毒性検出モデルがどのように機能し、機能するか、そしてそれらがオンライン談話の将来に与える影響について、議論を開いている。
論文 参考訳(メタデータ) (2021-02-08T18:37:50Z) - RealToxicityPrompts: Evaluating Neural Toxic Degeneration in Language
Models [93.151822563361]
事前訓練されたニューラルネットワークモデル(LM)は、安全なデプロイメントを妨げる人種差別的、性差別的、その他の有害な言語を生成する傾向にある。
本研究では, 予め訓練したLMが有害な言語を生成できる範囲と, 有害な変性を防止するための制御可能なテキスト生成アルゴリズムの有効性について検討する。
論文 参考訳(メタデータ) (2020-09-24T03:17:19Z) - RECAST: Interactive Auditing of Automatic Toxicity Detection Models [39.621867230707814]
本稿では, 予測のための説明を可視化し, 検出された有毒な音声に対する代替語提供を行うことにより, 有害な検出モデルを調べるインタラクティブツールであるRECASTについて述べる。
論文 参考訳(メタデータ) (2020-01-07T00:17:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。