論文の概要: A Benchmark for Understanding Dialogue Safety in Mental Health Support
- arxiv url: http://arxiv.org/abs/2307.16457v1
- Date: Mon, 31 Jul 2023 07:33:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-01 15:29:58.363937
- Title: A Benchmark for Understanding Dialogue Safety in Mental Health Support
- Title(参考訳): メンタルヘルス支援における対話の安全性の基準
- Authors: Huachuan Qiu, Tong Zhao, Anqi Li, Shuai Zhang, Hongliang He, Zhenzhong
Lan
- Abstract要約: 本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
我々は、BERTベース、RoBERTa-large、ChatGPTなど、人気のある言語モデルを用いてデータセットを分析する。
開発されたデータセットと研究結果は、メンタルヘルスサポートにおける対話安全性の研究を進めるための貴重なベンチマークとなる。
- 参考スコア(独自算出の注目度): 15.22008156903607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dialogue safety remains a pervasive challenge in open-domain human-machine
interaction. Existing approaches propose distinctive dialogue safety taxonomies
and datasets for detecting explicitly harmful responses. However, these
taxonomies may not be suitable for analyzing response safety in mental health
support. In real-world interactions, a model response deemed acceptable in
casual conversations might have a negligible positive impact on users seeking
mental health support. To address these limitations, this paper aims to develop
a theoretically and factually grounded taxonomy that prioritizes the positive
impact on help-seekers. Additionally, we create a benchmark corpus with
fine-grained labels for each dialogue session to facilitate further research.
We analyze the dataset using popular language models, including BERT-base,
RoBERTa-large, and ChatGPT, to detect and understand unsafe responses within
the context of mental health support. Our study reveals that ChatGPT struggles
to detect safety categories with detailed safety definitions in a zero- and
few-shot paradigm, whereas the fine-tuned model proves to be more suitable. The
developed dataset and findings serve as valuable benchmarks for advancing
research on dialogue safety in mental health support, with significant
implications for improving the design and deployment of conversation agents in
real-world applications. We release our code and data here:
https://github.com/qiuhuachuan/DialogueSafety.
- Abstract(参考訳): 対話の安全性は、オープンドメインの人間と機械の相互作用における広範にわたる課題である。
既存のアプローチでは、明らかに有害な応答を検出するために、独特な対話安全分類とデータセットを提案する。
しかし、これらの分類は、メンタルヘルスサポートの応答安全性の分析に適さない可能性がある。
実世界の対話では、カジュアルな会話で受け入れられるモデル応答は、精神的な健康支援を求めるユーザーには無視できる効果をもたらす可能性がある。
これらの制約に対処するため,本稿では,支援者に対する肯定的な影響を優先する理論的かつ現実的な分類法を開発することを目的とする。
さらに,対話セッション毎に詳細なラベル付きベンチマークコーパスを作成し,さらなる研究を容易にする。
bert-base,roberta-large,chatgptなどの一般的な言語モデルを用いてデータセットを分析し,メンタルヘルスサポートのコンテキストにおいて,安全でない応答を検出し,理解する。
我々の研究では、ChatGPTはゼロショットと少数ショットのパラダイムにおいて、詳細な安全定義を持つ安全カテゴリを検出するのに苦労している。
発達したデータセットと知見は、メンタルヘルスサポートにおける対話安全の研究を進める上で有用なベンチマークとなり、現実世界のアプリケーションにおける会話エージェントの設計と配置を改善する上で重要な意味を持つ。
コードとデータはこちらで公開しています。
関連論文リスト
- Improving Dialog Safety using Socially Aware Contrastive Learning [8.503001932363704]
対人・カジュアル・ダイアログの文脈における社会性について検討する。
これらの問題に対処するための2段階の微調整プロセスを提案する。
私たちは、Moral Integrity Corpus(MIC)やProsocialDialogといったデータセットを活用することで、社会行動を統合するベースモデルをトレーニングします。
論文 参考訳(メタデータ) (2024-02-01T09:24:33Z) - Facilitating NSFW Text Detection in Open-Domain Dialogue Systems via Knowledge Distillation [26.443929802292807]
CensorChatは、NSFW対話検出を目的とした対話監視データセットである。
このデータセットは、NSFWコンテンツ検出器を構築するための費用効率の良い手段を提供する。
提案手法は,NSFWコンテンツ検出の進歩だけでなく,AI駆動対話におけるユーザ保護ニーズの進展とも一致している。
論文 参考訳(メタデータ) (2023-09-18T13:24:44Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Using In-Context Learning to Improve Dialogue Safety [45.303005593685036]
チャットボットからの応答のバイアスや毒性を低減するための検索手法について検討する。
コンテキスト内学習を使用して、モデルをより安全な世代に向けて操る。
本手法は,トレーニングを必要とせず,強いベースラインと競合する。
論文 参考訳(メタデータ) (2023-02-02T04:46:03Z) - Response-act Guided Reinforced Dialogue Generation for Mental Health
Counseling [25.524804770124145]
本稿では、メンタルヘルスカウンセリング会話のための対話行動誘導応答生成器READERについて述べる。
READERは変換器上に構築されており、次の発話に対する潜在的な対話行為d(t+1)を共同で予測し、適切な応答u(t+1)を生成する。
ベンチマークカウンセリング会話データセットであるHOPE上でREADERを評価する。
論文 参考訳(メタデータ) (2023-01-30T08:53:35Z) - Towards Identifying Social Bias in Dialog Systems: Frame, Datasets, and
Benchmarks [95.29345070102045]
本稿では,ダイアログの安全性問題に対する社会的バイアス検出に焦点をあてる。
まず,会話における社会的バイアスを現実的に分析する新しいダイアルバイアスフレームを提案する。
中国初の社会バイアスダイアログデータセットであるCDail-Biasデータセットを紹介する。
論文 参考訳(メタデータ) (2022-02-16T11:59:29Z) - LaMDA: Language Models for Dialog Applications [75.75051929981933]
LaMDAは、ダイアログに特化したトランスフォーマーベースのニューラルネットワークモデルのファミリーである。
注釈付きデータで微調整し、モデルが外部の知識ソースを参照できるようにすると、大幅な改善がもたらされる。
論文 参考訳(メタデータ) (2022-01-20T15:44:37Z) - On the Safety of Conversational Models: Taxonomy, Dataset, and Benchmark [42.322782754346406]
本研究では,人間とロボットの対話に特有の不安全行動の把握を目的とした対話安全のための分類法を提案する。
DiaSafetyは6つの安全でないカテゴリのデータセットで、リッチなコンテキストに敏感なアンセーフな例をコンパイルします。
実験により、既存の発話レベルの安全ツールが我々のデータセットで破滅的に失敗することが示された。
論文 参考訳(メタデータ) (2021-10-16T04:17:12Z) - Counterfactual Off-Policy Training for Neural Response Generation [94.76649147381232]
本稿では,反実的推論による潜在的応答の探索を提案する。
対人学習の枠組みの下での対物反応の訓練は、潜在的応答空間の高逆領域を探索するのに役立つ。
DailyDialogデータセットに関する実証的研究は、我々のアプローチがHREDモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T22:46:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。