論文の概要: On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark
- arxiv url: http://arxiv.org/abs/2110.08466v1
- Date: Sat, 16 Oct 2021 04:17:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 15:41:57.291386
- Title: On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark
- Title(参考訳): 会話モデルの安全性について:分類学、データセット、ベンチマーク
- Authors: Hao Sun, Guangxuan Xu, Jiawen Deng, Jiale Cheng, Chujie Zheng, Hao
Zhou, Nanyun Peng, Xiaoyan Zhu, Minlie Huang
- Abstract要約: 本研究では,人間とロボットの対話に特有の不安全行動の把握を目的とした対話安全のための分類法を提案する。
DiaSafetyは6つの安全でないカテゴリのデータセットで、リッチなコンテキストに敏感なアンセーフな例をコンパイルします。
実験により、既存の発話レベルの安全ツールが我々のデータセットで破滅的に失敗することが示された。
- 参考スコア(独自算出の注目度): 42.322782754346406
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue safety problems severely limit the real-world deployment of neural
conversational models and attract great research interests recently. We propose
a taxonomy for dialogue safety specifically designed to capture unsafe
behaviors that are unique in human-bot dialogue setting, with focuses on
context-sensitive unsafety, which is under-explored in prior works. To spur
research in this direction, we compile DiaSafety, a dataset of 6 unsafe
categories with rich context-sensitive unsafe examples. Experiments show that
existing utterance-level safety guarding tools fail catastrophically on our
dataset. As a remedy, we train a context-level dialogue safety classifier to
provide a strong baseline for context-sensitive dialogue unsafety detection.
With our classifier, we perform safety evaluations on popular conversational
models and show that existing dialogue systems are still stuck in
context-sensitive safety problems.
- Abstract(参考訳): 対話安全問題は、神経会話モデルの実世界の展開を厳しく制限し、近年は大きな研究関心を集めている。
本稿では,人間とボットの対話設定に特有の安全でない行動を捉え,先行研究で未検討の文脈に敏感な安全でない行動に焦点をあてた対話安全分類法を提案する。
この方向の研究を促進するために、コンテキストに敏感な6つのアンセーフカテゴリのデータセットであるDiaSafetyをコンパイルする。
実験によると、既存の発話レベルの安全ガードツールは、データセット上で壊滅的に失敗する。
改善策として,文脈レベルの対話安全分類器を訓練し,文脈に敏感な対話不安全検出のための強固なベースラインを提供する。
分類器を用いて,一般的な会話モデル上での安全性評価を行い,既存の対話システムがいまだ文脈に敏感な安全性問題に留まっていることを示す。
関連論文リスト
- Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - Improving Dialog Safety using Socially Aware Contrastive Learning [8.503001932363704]
対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-01T09:24:33Z) - Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation [26.443929802292807]
CensorChatは、NSFW対話検出を目的とした対話監視データセットである。
このデータセットは、NSFWコンテンツ検出器を構築するための費用効率の良い手段を提供する。
提案手法は,NSFWコンテンツ検出の進歩だけでなく,AI駆動対話におけるユーザ保護ニーズの進展とも一致している。
論文 参考訳(メタデータ) (2023-09-18T13:24:44Z) - A Benchmark for Understanding Dialogue Safety in Mental Health Support [15.22008156903607]
本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
我々は、BERTベース、RoBERTa-large、ChatGPTなど、人気のある言語モデルを用いてデータセットを分析する。
開発されたデータセットと研究結果は、メンタルヘルスサポートにおける対話安全性の研究を進めるための貴重なベンチマークとなる。
論文 参考訳(メタデータ) (2023-07-31T07:33:16Z) - Healing Unsafe Dialogue Responses with Weak Supervision Signals [24.749797310489253]
非教師付き擬似ラベルサンプリング手法であるTEMPは、潜在的な安全な応答を自動的に割り当てる。
TEMP法では,複数のクラスタに応答し,複数のラベルを適応的にシャープなサンプリング戦略でサンプリングする。
chitchatとタスク指向対話の実験では、TEMPは監督信号の弱い最先端モデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-25T06:15:53Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - SafeText: A Benchmark for Exploring Physical Safety in Language Models [62.810902375154136]
テキスト生成およびコモンセンス推論タスク用に設計された各種モデルのコモンセンス物理安全性について検討する。
最先端の大規模言語モデルは、安全でないテキストの生成に影響を受けやすく、安全でないアドバイスを拒否するのが困難であることがわかった。
論文 参考訳(メタデータ) (2022-10-18T17:59:31Z) - Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and
Benchmarks [95.29345070102045]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。
まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。
中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (2022-02-16T11:59:29Z) - "How Robust r u?": Evaluating Task-Oriented Dialogue Systems on Spoken
Conversations [87.95711406978157]
本研究は、音声タスク指向会話における新しいベンチマークを示す。
マルチドメイン対話状態追跡と知識基底型対話モデルについて検討する。
我々のデータセットは,タスク指向対話システムの音声によるベンチマークを可能にする。
論文 参考訳(メタデータ) (2021-09-28T04:51:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。